对 本 书 的 赞誉 


此 亦 笃信 之 年 ， 此 亦 大 惑 之 年 。 此 亦 多 丽 之 阳春 ， 此 亦 绝 念 之 穷 冬 。 人 或 万 事 俱 备 ， 人 或 一 事 无 成 。 我 募 其 青云 直上 ， 我 辈 其 黄泉 永 险 。 一 《双城记 》 狄 更 斯 著 ， 魏 易 译 


如 今 是 一 个 人 工 智 能 兴起 的 年 代 ， 也 是 一 个 黑 产 独 狐 的 年 代 ; 是 一 个 机 器 学 习 算 法 百花 齐 放 的 年 代 ， 也 是 一 个 隐私 泄露 、 恶 意 代码 传播 、 网 络 攻击 建 虐 的 年 代 。AlphaGo 研 压 柯 洁 之 后 ， 不 少 人 担心 AI 会 
抢 了 人 类 的 工作 ， 然 而 信息 安全 领域 专业 人 才 严 重 匮乏 ， 极 其 需要 AI 来 补充 专业 缺口 。 


钨 哥 的 这 本 书展 示 了 丰富 多 彩 的 机 器 学 习 算 法 在 错综复杂 的 Web 安 全 中 的 应 用 ， 是 一 本 非常 及 时 的 人 工 智 能 在 信息 安全 领域 的 入 门 读物 。 正 如 书 中 所 述 ， 没 有 最 好 的 算法 ， 只 有 最 合适 的 算法 。 虽 然 这 
几 年 深度 学 习 呼 声 很 高 ， 但 各 种 机 器 学 习 算 法 依然 在 形形色色 的 应 用 场景 中 有 着 各 自 独 特 的 价值 ， 熟 悉 并 用 好 这 些 算 法 在 安全 领域 的 实战 中 会 起 到 重要 的 作用 。 





Lenx， 百 度 首席 安全 科学 家 ， 安 全 实验 室 负责 人 


存储 和 计算 能 力 的 爆发 式 增长 ， 让 我 们 获得 了 比 以 往 更 全 面 、 更 实时 获取 以 及 分 析 数 据 的 潜在 能 力 ， 但 面 对 产生 的 海量 信息 ， 如 何 快速 准确 地 将 其 转化 为 业务 需求 ， 则 需要 依赖 一 些 非 传 统 的 手段 。 就 
安全 领域 来 说 ， 原 先 依赖 于 规则 的 问题 解法 过 于 受 限 于 编写 规则 的 安全 专家 自身 知识 领域 的 广度 和 深度 ， 以 及 对 于 问题 本 质 的 理解 能 力 。 但 我 们 都 知道 ， 安 全 漏洞 层出不穷 ， 攻 击 利用 的 方式 多 种 多 样 ， 仅 
仅 依 赖 于 规则 来 发 现 问题 在 现 阶段 的 威胁 形势 下 慢 慢 变 得 捉襟见肘 。 面 对 威胁 ， 企 业 安全 人 员 需 要 打造 这 样 一 种 能 力 ， 它 能 够 让 我 们 脱离 单纯 的 点 对 点 的 竞争 ，case by case 的 对 抗 ， 转 而 从 更 高 的 维度 上 来 
审视 业务 ， 发 现 潜在 的 异常 事件 ， 而 这 些 异常 事件 可 能 会 作为 安全 人 员 深入 调查 的 起 点 。 这 种 能 力 能 让 我 们 找到 原 有 安全 能 力 盲区 以 及 发 现 新 威胁 ， 促 使 我 们 的 技能 水 平 以 及 对 威胁 的 响应 速度 持续 提升 。 
同时 这 种 能 力 和 防 得 体系 结合 ， 也 有 可 能 让 我 们 在 面 对 某 些 未 知 威胁 时 ， 达 到 以 不 变 应 万 变 、 获 得 天 然 和 免疫 的 理想 状态 。 兜 哥 的 这 本 书 或 许 是 开启 我 们 这 种 能 力 的 一 把 钥匙 。 本 书 用 通俗 易 懂 的 语言 介绍 了 
机 器 学 习 原 理 ， 结 合 实际 企业 中 的 安全 业务 需求 场景 ， 让 广大 安全 人 员 能 够 感受 到 这 种 “如 日 中 天 ”的 技术 在 传统 安全 领域 内 如 何 大 放 异 彩 。 最 后 ，May the force be with you。 


一 一 王 宇 ， 蚂 蚁 金 服 安全 总 监 
百度 是 拥有 海量 互联 网 数据 的 几 家 公司 之 一 ， 兜 哥 是 百度 前 IT 安全 负责 人 ， 现 Web 安 全 产品 负责 人 ， 研 发 的 产品 不 仅 应 用 于 百度 公司 内 部 检测 网 络 攻击 ， 也 应 用 在 多 个 百度 的 商业 安全 产品 中 ， 服 务 于 
数 万 站 长 。 忽 哥 的 团队 是 国内 最 早 一 批 将 机 器 学 习 算 法 应 用 于 网 络 安 全 场景 的 团队 之 一 ， 本 书 聚 集 了 忽 哥 及 其 团队 多 年 的 安全 实践 经 验 ， 窗 盖 了 互联 网 公司 可 能 会 遇 到 的 多 个 安全 场景 ， 比 如 用 图 算法 检测 


WebShell 等 ， 非 常 好 地 解决 了 百度 商业 安全 客户 被 入 侵 贸 后门 的 问题 。 钨 哥 将 自己 的 技术 选 型 、 算 法 、 代 码 倾 早 相 授 ， 我 相信 本 书 的 出 版 将 会 大 大 降低 安全 研发 工程 师 转 型 安全 数据 分 析 专 家 的 难度 ， 值 得 
推荐 。 














一 黄 正 ， 百 度 安全 实验 室 X-Team 负 责 人 ，MSRC2016 中 国 区 第 一 


伴随 着 互联 网 的 爆炸 式 发 展 ， 网 络 安全 已 上 升 到 国家 战略 层面 ， 能 直接 看 到 效果 的 安全 能 力 建 设 得 到 高 度 重视 。 与 此 同时 ， 安 全 团队 却 又 不 得 不 面 对 百 花 齐 放 的 业务 场景 、 大 规模 的 数据 中 心 ， 以 及 念 
加 剧烈 、 复 杂 和 不 确定 性 的 网 络 攻击 。 如 何在 传统 攻防 对 抗 之 外 寻找 更 有 效 、 可 落地 的 对 抗 方式 ， 已 成 为 各 大 企业 安全 团队 思考 的 重点 。 所 阐 ， 近 些 年 来 ， 计 算 和 存储 资源 已 不 再 是 安全 团队 的 瓶颈 ， 安 全 
团队 自身 在 工程 能 力 上 也 已 非 昔 日 吴 下 阿 蒙 。 机 器 学 习 成 为 近 些 年 来 安全 领域 里 第 一 批 从 学 术 走 向 工业 的 应 用 方向 ， 并 已 有 很 多 阶段 性 的 实践 成 果 。 很 钦 喜 地 看 到 兜 哥 一 直 在 推进 机 器 学 习 系 列 的 文章 并 编 
写 了 此 书 。 此 书 重点 讲解 了 常见 机 器 学 习 算 法 在 不 同 场景 下 的 潜在 应 用 和 实践 ， 非 常 适合 初学 者 入 门 。 和 希望 此 书 能 够 启发 更 多 的 同行 继续 实践 和 深耕 机 器 学 习 应 用 这 个 方向 ， 并 给 安全 行业 带 来 更 多 的 反馈 
和 讨论 。 
一 一 程 岩 ， 京 东安 全 首席 架构 师 
网 络 安全 是 信息 时 代 的 重大 挑战 和 核心 课题 之 一 ， 而 机 器 学 习 是 迄今 为 止 人 工 智能 大 厦 最 坚实 稳固 的 基石 。 本 书 从 基本 原理 出 发 ， 通 过 实际 案例 深入 介绍 和 分 析 机 器 学 习 技 术 和 算法 在 网 络 安全 领域 的 
应 用 与 实践 ， 是 一 本 不 可 多 得 的 入 门 指南 和 参考 手册 。 


一 一 姚 联 博士 ， 北 京 旷 视 科技 (Face++) 有 限 公司 高 级 研究 员 
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当前 正 是 一 个 技术 变革 引发 各 行业 变革 的 时 代 ， 云 计算 、 大 数据 、 物 联网 等 新 技术 在 为 各 行业 带 来 新 机 遇 的 同时 ， 也 带 来 了 新 的 安全 漏洞 和 风险 。 新 的 风险 当然 就 需要 新 的 网 络 安全 技术 来 针对 解决 ， 
机 器 学 习 技术 无 疑 是 新 一 代 网 络 安全 技术 中 的 佼佼 者 。 新 一 代 网 络 安全 产品 和 解决 方案 已 经 普遍 将 机 器 学 习 当做 必要 功能 来 进行 开发 ， 机 器 学 习 的 概念 如 何 落 实 于 产品 ， 落 实 于 业务 ， 落 实在 具体 场景 
已 成 为 国内 网 络 安全 产业 普遍 关注 和 探索 的 问题 。 本 书 是 目前 为 止 我 所 阅读 过 的 国内 关于 机 器 学 习 应 用 于 网 络 安全 应 用 领域 最 详细 和 实用 的 参考 读物 。 作 者 基于 一 线 实际 业务 实践 ， 不 仅 深 入 介绍 了 深度 学 
习 的 相关 算法 和 开源 技术 ， 而 且 提供 了 一 系列 有 关机 器 学 习 的 业务 场景 的 具体 案例 。 所 以 强烈 推荐 所 有 网 络 安全 应 用 的 从 业 人 员 和 对 机 器 学 习 领 域 感 兴趣 的 爱好 者 们 人 手 一 本 ! 



















































































金 湘 宇 ， 君 源 创 投 管理 合伙 人 


2017 年 9 月 于 北京 
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网 络 安全 一 直 和 Al 相伴 相生 ， 从 网 络 安全 诞生 的 那 一 天 起 ， 人 们 就 一 直 试 图 使 用 自动 化 的 方式 去 解决 安全 问题 。 网 络 安全 专家 一 直 试 图 把 自己 对 网 络 威胁 的 理解 转换 成 机 器 可 以 理解 的 方式 ， 比 如 黑白 
名 单 、 正 则 表达 式 ， 然 后 利用 机 器 强大 的 计算 能 力 ， 夜 以 继 日 地 从 流量 、 日 志 、 文 件 中 寻找 似曾相识 的 各 类 威胁 。 似 乎 这 一 切 就 是 那么 天 经 地 义 并 无 懈 可 击 。 但 事情 似乎 又 没有 那么 简单 ， 机 器 其 实 并 没有 
完全 学 到 人 的 经 验 ， 网 络 安全 专家 一 眼 就 可 以 识破 的 变形 ， 对 于 机 器 却 难以 理解 ， 更 可 怕 的 是 ， 恶 意 程序 数量 呈 指 数 级 增长 ， 各 类 新 型 攻击 方式 层出不穷 ，0day 的 出 现 早 已 超过 一 线 明星 出 现在 新 闻 头 条 的 
频率 ， 依 靠 极 其 有 限 的 网 络 专家 总 结 的 经 验 和 几 个 安全 厂商 所 谓 的 样本 交换 ， 已 经 难以 应 付 现在 的 网 络 安全 威胁 。 如 果 安 全 专家 一 眼 就 可 以 识破 的 威胁 ， 机 器 也 能 够 自动 化 发 现 甚至 做 出 相应 的 响应 ， 这 已 
经 是 很 大 的 进步 如 果 让 机 器 可 以 像 阿尔 法 狗 理解 围棋 一 样 理解 网 络 威 胁 ， 那 将 是 巨大 进步 。 事 情 又 回 到 最 初 的 那个 问题 ， 如 何 能 让 机 器 可 以 真正 学 会 识别 安全 威胁 ”机 器 学 习 可 能 是 一 个 不 错 的 答案 。 



















































































本 书面 向 信息 安全 从 业 人 员 、 大 专 院 校 计算 机 相关 专业 学 生 以 及 信息 安全 爱好 者 、 机 器 学 习 爱好 者 ， 对 于 想 了 解 人 工 智能 的 CTO、 运 维 总 监 、 架 构 师 同样 也 是 一 本 不 错 的 科普 书籍 。 如 果 读 者 看 完 本 
书 ， 在 工作 学 习 中 遇 到 问题 时 可 以 想起 一 到 两 种 算法 ， 那 么 我 觉得 就 达到 效果 了 ; 如果 读者 读 完 本 书 ， 可 以 像 使 用 printf 一 样 使 用 SVM、 朴 素 贝 叶 斯 等 算法 ， 那 么 这 本 书 就 相当 成 功 了 。 




































































我 写本 书 的 初 囊 是 帮助 信息 安全 从 业者 了 解 机 器 学 习 ， 可 以 动手 使 用 简单 的 机 器 学 习 算法 解决 实际 问题 。 在 写作 中 尽量 避免 生硬 的 说 教 ， 能 用 文字 描述 的 尽量 不 用 冷冰冰 的 公式 ， 能 用 图 和 代码 说 明 的 





















































尽量 不 用 多 余 的 文字 。 正 如 霍金 所 言 “ 多 写 1 个 公式 ， 少 一 半 读 者 ”， 希 望 反 之 亦 然 。 























机 器 学 习 应 用 于 安全 领域 遇 到 的 最 大 问题 就 是 缺乏 大 量 的 黑 样 本 ， 即 所 谓 的 攻击 样本 ， 尤 其 相对 于 大 量 的 正常 业务 访问 ， 攻 击 行为 尤其 是 成 功 的 攻击 行为 是 非常 少 的 ， 这 就 给 机 器 学 习 带 来 了 很 大 挑 
战 。 本 书 很 少 对 不 同 算法 进行 横向 比较 ， 也 是 因为 在 不 同 场景 下 不 同 算法 的 确 表现 差别 很 大 ， 很 难说 深度 学 习 就 一 定 比 朴素 贝 叶 斯 好 ， 也 很 难说 支持 向 量 机 就 比 不 过 卷 积 神经 网 络 ， 拿 某 个 具体 场景 进行 横 
评 意义 不 大 ， 毕 竟 选 择 算法 不 像 购买 SUV， 可 以 拿 几 十 个 参数 评 头 论 足 ， 最 后 还 是 需要 大 家 结合 实际 问题 去 选择 。 










































































本 书 的 第 1 章 主 要 介绍 了 如 何 打造 自己 的 深度 学 习 工 具 箱 ， 介 绍 了 本 书 使 用 的 TensorFlow、TFLearn 等 深度 学 习 库 的 安装 以 及 使 用 方法 。 第 2 章 和 第 3 章 介绍 了 卷 积 神经 网 络 和 循环 神经 网 络 这 两 大 深度 
学 习 算法 的 基础 知识 。 第 4 章 介 绍 在 生产 环境 搭建 机 器 学 习 平 台 需 要 使 用 的 开源 组 件 ， 包 括 Logstash、Kafka、Storm、Spark 等 ， 并 且 介 绍 了 GPU 和 TPU 的 基础 知识 。 第 5 章 到 第 15 章 ,介绍 了 11 个 使 用 机 
器 学 习 技术 解决 实际 安全 问题 的 案例 ， 包 括 验 证 码 识别 、 垃 圾 邮件 识别 、 负 面 评论 识别 、 骚 扰 短信 识别 、Linux 后 门 检测 、 用 户 行为 分 析 与 恶意 行为 检测 、Webshell 检 测 、 智 能 扫描 器 、DGA 域 名 检测 、 恶 
意 程序 分 类 识别 、 反 信用 卡 欺 诈 ， 每 个 案例 都 使 用 互联 网 公开 的 数据 集 并 配 有 基于 Python 的 代码 ， 代 码 和 数据 集 可 以 在 本 书 配套 的 GitHub 下 载 。 



























































































































































本 书 是 我 所 著 机 器 学 习 三 部 曲 的 第 二 部 ， 第 一 部 主要 以 机 器 学 习 常 见 算法 为 主线 ， 利 用 生活 中 的 例子 和 具体 安全 场景 来 介绍 机 器 学 习 常 见 算法 ， 是 机 器 学 习 入 门 书籍 ， 便 于 读者 可 以 快速 上 手 。 全 部 代 
码 都 能 在 普通 PC 上 运行 。 本 书 将 重点 介绍 深度 学 习 ， 并 以 具体 的 11 个 案例 介绍 机 器 学 习 的 应 用 ， 定 位 是 面向 具有 一 定 机 器 学 习 基础 或 者 致力 于 使 用 机 器 学 习 解 决 工作 中 问题 的 读者 ， 本 书 将 重点 放 在 问题 的 
解决 而 不 是 算法 的 介绍 。 由 于 深度 学 习 通 常 计算 量 已 经 超过 了 PC 的 能 力 ， 部 分 代码 需要 在 服务 器 甚至 GPU 上 运行 ， 不 过 这 不 影响 大 家 的 阅读 与 学 习 。 第 三 部 将 重点 介绍 强化 学 习 和 对 抗 网 络 ， 并 利用 若干 虚 
构 安全 产品 或 者 项 目 来 介绍 如 何 让 机 器 真正 具备 阿尔 法 狗 级 别 的 智能 。 遗 憾 的 是 ， 深 度 学 习 的 优势 发 挥 需要 大 量 精准 标注 的 训练 样本 ， 但 是 由 于 各 种 各 样 的 原因 ， 我 只 能 在 书 中 使 用 互联 网 上 已 经 公开 的 数 
据 集 ， 这 些 数据 量 级 往往 很 难 发 挥 深度 学 习 的 优势 ， 对 于 真正 想 在 生产 环境 中 验证 想法 的 读者 需要 搜集 更 多 样本 。 
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我 平时 在 Freebuf 专 栏 以 及 i 春秋 分 享 企 业 安 全 建设 以 及 人 工 智能 相关 经 验 与 最 新 话题 ， 同 时 也 运营 我 的 微 信 公众 号 “ 久 哥 带 你 学 安全 ”、 知 识 星 球 (原名 小 密 圈 ) “Web 安 全 之 机 器 学 习 ”， 欢 迎 大 家 
关注 并 在 线 交 流 。 之 前 没有 使 用 过 知识 星球 的 读者 可 以 在 各 类 应 用 市 场 上 搜索 。 









































本 书 使 用 的 代码 和 数据 均 在 GitHub 上 发 布 ， 地 址 为 : https://github.com/duoergun0729/2book， 代 码 层面 任何 疑问 可 以 在 GitHub 上 直接 反馈 。 


























第 1 章 ”打造 深度 学 习 工 具 箱 


























在 本 系列 图 书 的 第 一 本 《Web 安 全 之 机 器 学 习 入 门 》 中 ， 我 们 以 常见 安全 问题 为 背景 介绍 了 常见 的 机 器 学 习 算法 ， 主 要 以 KNN、SVM、 朴 素 贝 叶 斯 等 浅 层 学 习 算法 为 主 。 以 Scikit-Learn 为 代表 的 机 器 
学 习 开 发 库 帮 助 我 们 可 以 很 便捷 地 在 单机 环境 下 验证 我 们 的 想法 。 近 几 年 深度 学 习 发 展 迅速 ， 以 TensorFlow 为 代表 的 一 批 优 秀 的 深度 学 习 开 发 库 大 大 降低 了 大 家 学 习 使 用 深度 学 习 技术 的 门槛 。 作 为 本 书 的 
第 1 章 ， 本 章 将 帮助 大 家 打造 自己 的 深度 学 习 工 具 箱 ， 并 结合 实际 例子 介绍 TensorFlow、TFLearn、PaddlePaddle 以 及 Karas 的 使 用 方法 。 
















































































本 章 代码 请 参考 本 书 配套 GitHub 中 的 tools.py。 


1.1 TensorFlow 




















TensorFlow 是 谷歌 的 第 二 代 人 工 智能 学 习 系 统 ， 其 名 称 来 源 于 本 身 的 运行 原理 。Tensor 意 味 着 N 维 数组 ，Flow 意 味 着 基于 数据 流 图 的 计算 ，TensorFlow 为 Tensor 从 流 图 的 一 端 流动 到 另 一 端 计算 过 
程 。 所 以 也 可 以 把 TensorFlow 当 做 将 复杂 的 数据 结构 传输 至 人 工 智能 神经 网 中 进行 分 析 和 处 理 的 系统 。 


















































TensorFlow 可 用 于 语音 识别 或 图 像 识 别 等 多 项 机 器 深度 学 习 领 域 ， 是 对 2011 年 开发 的 深度 学 习 基 础 架构 DistBelief 进 行 了 各 方面 的 改进 ， 它 可 在 小 到 一 部 智能 手机 、 大 到 数 干 台数 据 中 心服 务 器 的 各 种 
设备 上 运行 。 














1.1.1 安装 


TensorFlow 支 持 非常 丰富 的 安装 方式 [1], 





1.Ubuntu/Linux。 


# 仅 使 用 CPU 的 版 本 

$ pip install https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.5.0-cp27-none-linux x86 64.whl 
# 开启 GPU 支持 的 版 本 (安装 该 版 本 的 前 提 是 已 经 安装 了 CUDA sdk) 二 

$ pip install https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.5.0-cp27-none-linux x86 64.whl 





2.Mac OS X。 




















在 Mac OS X 系 统 上 ， 我 们 推荐 先 安装 homebrew， 然 后 执行 brew install python， 以 便 能 够 使 用 homebrew 中 的 Python 安 装 TensorFlow: 


# 当前 版 本 只 支持 CPU 
$ pip install https://storage.googleapis.com/tensorflow/mac/tensorflow-0.5.0-py2-none-any.whl 





3. 基 于 Docker 的 安装 。 





$ docker run -让 b.gcr.io/tensorflow/tensorflow 





该 命令 将 启动 一 个 已 经 安装 好 TensorFlow 及 相关 依赖 的 容器 : 


4 基于 VirtualEnv 的 安装 。 











官方 文档 推荐 使 用 VirtualEnv 创 建 一 个 隔离 的 容器 来 安装 TensorFlow， 这 是 可 选 的 ， 但 是 这 样 做 能 使 排查 安装 问题 变 得 更 容易 。VirtualEnv 通 过 创建 独立 Python 开发 环境 的 工 ， 
及 间接 权限 问题 。 比 如 ， 一 个 项 目 依赖 Django1.3， 而 当前 全 局 开发 环境 为 Diango1.7， 











首先 ， 安 装 所 有 必 备 工具 : 





版 本 跨度 过 大 ， 导 致 的 不 兼容 使 项 目 无 法 正常 运行 ,使 用 








VirtualEnv 可 以 解决 这 些 问题 站。 























， 来 解决 依赖 、 版 本 以 





# 在 Linux 上 : 

$ sudo apt-get install python-pip python-dev python-virtualenv 
# Mac 上: 

# 如 果 还 没有 安装 pip 

$ sudo easy install pip 

$ sudo pip install -~-upgrade virtualenv 








接 下 来 ， 建 立 一 个 全 新 的 VirtualEnv 环 境 。 为 了 将 环境 建 在 ~/tensorflow 目 录 下 ， 执 行 如 下 代码 : 





$ virtualenv --system-site-packages ~/tensorflow 
$ cd ~/tensorflow 





然后 ， 激 活 VirtualEnv: 





$ source bin/activate 

# 如 果 使 用 bash $ source bin/activate.csh 
# 如 果 使 用 csh (tensorflow)$ 

# 终端 提示 符 应 该 发 生变 化 





在 VirtualEnv 内 ， 安 装 TensorFlow: 





(tensorflow)$ pip install --upgrade <$url to binary.whl> 











接 下 来 ， 使 用 类 似 命令 运行 TensorFlow 程 序 : 











(tensorflow)$ cd tensorflow/models/image/mnist 
(tensorflow)$ python convolutional.py 

# 当 使 用 完 TensorFlow 

(tensorflow)$ deactivate 





[1] http://www.tensorfly.cn/tfdoc/ get_started/os_setup.html 
[2] http://www.jianshu.com/p/08c657bd34f1 


1.1.2 ”使 用 举例 











TensorFlow 的 APlI 使 用 起 来 比较 繁琐 ， 通 常 直接 使 用 针对 其 API 的 高 层 封装 TFLearn 即 可 ， 具 体 实现 请 参考 下 节 TFLearn 的 使 用 举例 。 


























1.2 TFLearn 


TFLearn 是 一 个 模块 化 和 透明 的 深度 学 习 库 ， 构 建 在 TensorFlow 之 上 ， 它 为 TensorFlow 提 供 高 层次 AP|， 





TFLearn 具 有 以 下 特点 [1]: 
“ 容易 使 用 和 易于 理解 的 高 层次 API 用 于 实现 深度 神经 网 络 ， 附 带 教程 和 例子 。 


“ 通过 高 度 模 块 化 的 内 置 神经 网 络 层 、 正 则 化 器 、 优 化 器 等 进行 快速 原型 设计 。 





. 强大 的 辅助 函数 ， 训 练 任意 TensorFlow 图 ， 支 持 多 输入 、 多 输出 和 优化 器 。 




















“ 简单 而 美观 的 图 可 视 化 ， 具 有 关于 权 值 、 梯 度 、 特 征 图 等 细节 。 

















: 无需 人 工 干预 ， 可 使 用 多 CPU、 多 GPU。 


本 书 的 主要 代码 都 是 基于 TFLearn 开 发 的 。 





1 安装 。 




















TFLearn 的 安装 推荐 使 用 使 用 pip 工 














的 是 快速 搭建 试验 环境 ， 同 时 保持 对 TensorFlow 的 完全 透明 和 兼容 性 。 





pip install tflearn 

















如 果 需 要 使 用 源码 安装 ， 可 以 直接 从 GitHub 上 下 载 对 应 源码 : 











https://github.com/tflearn 





然后 进入 TFLearn 目 录 安装 即 可 : 





Python setup.py install 











2. 使 用 举例 。 
































TFLearn 自 带 MNIST 数 据 ， 使 用 函数 mnist.load_data 接 口 ， 并 且 可 以 通过 指定 one_hot=True 直 接 获 取 使 用 独 热 编码 的 标签 : 















































X, Y, testX, test¥ = mist.load data(one hot=True) 
































构造 一 个 隐藏 层 为 2 层 ， 每 层 核 数 分 别 为 64、64， 输 出 层 核 数 为 10 的 多 层 感知 机 ， 使 用 fully_ connected 函 数 即 可 完成 构造 全 连接 网 络 的 工作 ， 使 用 tflearn.input_data 定 义 输入 数据 大 小 。 为 了 避免 过 
拟 合 ， 每 层 之 间 使 用 Dropout 函 数 进行 部 分 丢失 处 理 : 












































# Building deep neural network 

input layer = tflearn.input data(shape=[None, 784]) 

densel = tflearn.fully connected (input layer, 64, activation='tanh', 
~ regularizer='L2', weight decay=0.001) 

dropoutl = tflearn.dropout (densel, 0.8) 

dense2 = tflearn.fully connected (dropout1, 64, activation='tanh', 

regularizer='L2', weight decay=0.001) 
dropout2 = tflearn.dropout (dense2, 0.8) 
softmax = tflearn.fully connected (dropout2, 10, activation='softmax') 

















使 用 多 层 感知 机 进行 训练 ， 通 过 n_epoch 设 置 训练 的 轮 数 : 











# Training 

model = tflearn.DNN (net, tensorboard verbose=0) 

model.fit (X, Y, n epoch=20, validation set= (testX，testY) ， 
show metric=True, run id="dense model") 





经 过 20 轮 的 训练 后 ， 准 确 率 达 到 了 99.5496: 


Training Step: 17200 | total loss: 0.43454 | time: 5.444s 
| SSED | epoch: 020 | loss: 0.43454 = top3: 0.9685 | val loss: 0.10618 - val ace: 0.9954 -= iter: 55000/55000 





[1] https://zhuanlan.zhihu.com/p/25322066 


1.3 PaddlePaddle 





PaddlePaddle 是 百度 开源 的 深度 学 习 库 ，2016 年 9 月 27 日 ， 百 度 宣布 其 全 新 的 深度 学 习 开 源 平 台 PaddlePaddle 在 开源 社区 GitHub 及 百度 大 脑 平台 开放 ， 供 广大 开发 者 下 载 使 用 。 百 度 成 为 继 
Google、Facebook、IBM 后 另 一 个 将 人 工 智能 技术 开源 的 科技 巨头 ， 同 时 也 是 国内 首 个 开源 深度 学 习 平台 的 科技 公司 。PaddlePaddle 的 前 身 是 百度 于 2013 年 自主 研发 的 深度 学 习 平台 Paddle (Parallel 
Distributed Deep Learning， 并 行 分 布 式 深度 学 习 ) ， 且 一 直 为 百度 内 部 工程 师 研发 使 用 。 全 球 各 大 科技 巨头 开源 的 深度 学 习 平台 都 极 具 各 自 的 技术 特点 。 百 度 由 于 其 自身 在 搜索 、 图 像 识 别 、 语 音 语义 识 
别 理解 、 情 感 分 析 、 机 器 翻译 、 用 户 画像 推荐 等 多 领域 都 有 业务 应 用 ，PaddlePaddle 则 表现 得 更 加 全 面 ， 是 一 个 相对 全 功能 的 深度 学 习 框 架 。 目 前 ，PaddlePaddle 已 实现 CPU/GPU 单 机 和 分 布 式 模式 ， 同 
时 支持 海量 数据 训练 、 数 百 台 机 器 并 行 运算 ， 以 应 对 大 规模 的 数据 训练 。 此 外 ，PaddlePaddle 具 备 高 质量 GPU 代码 ， 提 供 了 机 器 翻译 、 推 荐 、 图 像 分 类 、 情 感 分 析 等 功能 。 



































































































































































































































目前 ，Paddlepaddle 已 在 百度 30 多 项 主要 产品 和 服务 之 中 发 挥 着 作用 ， 如 外 卖 的 预 估 出 餐 时 间 、 预 判 网 盘 故障 时 间 点 、 精 准 推荐 用 户 所 需 信 息 、 海 量 图 像 识 别 分 类 、 字 符 识别 、 病 毒 和 垃圾 信息 检测 、 
机 器 翻译 和 自动 各 驶 等 领域 。 以 外 卖 行业 为 例 ， 外 卖 员 等 待 商家 出 餐 的 时 间 耗 时 严重 ， 百 度 将 不 同时 段 商家 的 客流 量 、 莱 品 的 制作 时 间 和 订单 量 等 数据 交 给 了 PaddlePaddle， 经 过 对 海量 数据 的 深度 学 习 处 
理 ， 如 今 ， 百 度 外 卖 的 内 部 系统 可 以 预 估 每 个 商家 菜品 出 餐 时 间 ， 及 时 告知 外 卖 员 ， 提 高 了 送 餐 效率 ， 系 统 也 可 以 更 加 合理 地 规划 取 餐 和 送 餐 的 路 线 []。 






































[1] http://tech.sina.com.cn/i/2016-09-27/doc-ifxwevmc5593979.shtml 


1.3.1 安装 


PaddlePaddle 提 供 数 个 预 编 译 的 二 进 制 文件 来 进行 安装 ， 包 括 Docker 镜 像 和 Ubuntu 的 deb 安 装 包 等 。 


1. 基 于 Docker 容 器 使 用 方式 























PaddlePaddle 的 编译 环境 打包 成 了 一 个 镜像 ， 称 为 开发 镜像 ， 里 面 涵盖 了 PaddlePaddle 需 要 的 所 有 编译 工具 。 编 译 出 来 的 PaddlePaddle 也 打包 成 一 个 镜像 ， 称 为 生产 镜像 ， 里 面 涵盖 了 运行 所 需 的 所 
有 环境 。 每 次 发 布 新 版 本 的 时 候 都 会 发 布 对 应 版 本 的 生产 镜像 以 及 开发 镜像 。 运 行 镜像 包括 纯 CPU 版 本 和 GPU 版 本 及 其 对 应 的 非 AVX 版 本 [1]。 























交互 方式 运行 开发 镜像 : 





docker run -it --rm paddlepaddle/paddle:<version>-dev /bin/bash 








docker run -d -p 2202:22 -p 8888:8888 paddledev/paddle:<version>-dev 














然后 用 密码 root SSH 进 入 容器 : 





ssh -p 2202 root@localhost 





2.Ubuntu 部 署 PaddlePaddle 


安装 包 的 下 载 地 址 是 : 





https://github.com/PaddlePaddle/Paddle/releases 


它 包 含 4 个 版 本 : 


“CPU 版 本 : 支持 主流 X86 处 理 器 平台 ， 使 用 了 AVX 指 令 集 。 

“ CPU-NOAVX 版 本 : 支持 主流 X86 处 理 器 平台 ， 没 有 使 用 AVX 指 令 集 。 

“GPU 版本: 支持 主流 X86 处 理 器 平台 ， 支 持 NVIDIA CUDA 平 台 ， 使 用 了 AVX 指 令 集 。 

: GPU-NOAVX 版 本 : 支持 主流 X86 处 理 器 平台 ， 支 持 NVIDIA CUDA 平 台 ， 没 有 使 用 AVX 指 令 集 。 


下 载 完 相关 安装 包 后 ， 执 行 如 下 命令 : 





sudo apt-get install gdebi gdebi paddle-*-cpu.deb 





或 者 如 下 命令 : 





dpkg -i paddle-*-cpu.deb apt-get install -f 











在 用 dpkg-i 的 时 候 如 果 报 一 些 依赖 未 找到 的 错误 是 正常 的 ， 在 apt-get install-f 里 会 继续 安装 PaddlePaddle。 














安装 完成 后 ， 可 以 使 用 命令 paddle version 查 看 安装 后 的 Paddle 版 本 四: 











PaddlePaddle 0.8.0b1，compiled with 
with avx: ON 

with gpu: OFF 

with double: OFF 

with python: ON 

with rdma: OFF 

with timer: OFF 

with predict _ sdk: 





[1] http://www.paddlepaddle.org/doc_cn/getstarted/build_and_install/docker_install_cn.html 
[2] http://www.paddlepaddle.org/doc_cn/getstarted/build_and_install/ubuntu_install_cn.html 


1.3.2 ”使 用 举例 


以 识别 MNIST 数 据 集 为 例 ， 关 于 MNIST 数 据 集 的 详细 介绍 请 参考 本 书 第 5 章 。 























下 面 代码 实现 了 一 个 含有 两 个 隐藏 层 的 多 层 感知 器 ， 其 中 两 个 隐藏 层 的 激活 函数 均 采 用 ReLU， 输 出 层 的 激活 函数 用 Softmax: 














def multilayer perceptron (img) : 

hiddenl = paddle.layer .fc (input=img, size=128, 
act=paddle.activation.Relu()) 

hidden2 = paddle.layer.fc (input=hiddenl, size=64, 
act=paddle.activation.Relu()) 
predict = paddle.1layer.fc (input=hidden2, 

size=10, act=paddle.activation.Softmax()) 
return predict 














通过 layer.data 调 用 来 获取 数据 ， 然 后 调用 分 类 器 得 到 分 类 结果 。 训 练 时 ， 对 该 结果 计算 其 损失 函数 ， 分 类 问题 常常 选择 交叉 炳 损失 函数 : 

















paddle.init (use gpu=False, trainer count=1) 

images = paddle.layer.data( name="'pixel', type=paddle.data type.dense vector(784) ) 
label = paddle.layer.datal( name="'label', type=paddle.data type.integer value(10)) 
predict = multilayer perceptron (images) # 多 层 感知 器 

cost = paddle.1layer.classification cost (input=predict, label=label) 





训练 过 程 是 完全 自动 的 ，event_handler 里 打印 的 日 志 如 下 所 示 ， 最 后 准确 率 为 97.66% : 





# Pass 0, Batch 0, Cost 2.780790, {'classification error evaluator': 0.9453125} # Pass 0, Batch 100, Cost 0.635356, {'classification error evaluator': 0.2109375} # Pass 0, Batc 





1.4 Karas 


Keras 是 一 个 高 级 别 的 Python 神经 网 络 框架 ， 能 在 TensorFlow 或 者 Theano 上 运行 。Keras 的 作者 、 谷 歌 Al 研 究 员 Francois Chollet 宣 布 了 一 条 激动 人 心 的 消息 ，Keras 将 会 成 为 第 一 个 被 添加 到 
TensorFlow 核 心中 的 高 级 别 框架 ， 这 将 会 使 Keras 变 成 Tensorflow 的 默认 APl。 


Keras 的 特点 是 : 

“ 可 以 快速 简单 地 设计 出 原型 。 

“ 同时 支持 卷 积 网 络 和 循环 网 络 ， 以 及 两 者 的 组 合 。 
“ 支持 任意 的 连接 方案 (包括 多 输入 和 多 输出 ) 。 


Keras 的 在 线 文档 内 容 非 常 丰富 ， 地 址 为 : 





https://keras.io/ 





1. 安 装 

















Keras 的 安装 非常 简便 ， 使 用 pip 工 具 即 可 : 





pip install keras 














如 果 需 要 使 用 源码 安装 ， 可 以 直接 从 GitHub 上 下 载 对 应 源码 : 














https://github.com/fchollet/keras 





然后 进入 Keras 目 录 安 装 即 可 : 





Python setup.py install 











2. 使 用 举例 

















以 识别 MNIST 数 据 集 为 例 ， 关 于 MNIST 数 据 集 的 详细 介绍 请 参考 本 书 第 5 章 。 本 章 主 要 是 给 大 家 概要 介绍 如 何 使 用 Keras。 














Keras 自 带 了 MNIST 数 据 集 ， 使 用 mnist.load_data () 加 载 即 可 : 














# the data, shuffled and split between train and test sets 
(x train, y train), (x test, y test) = mnist.load data() 


MNIST 中 的 图 片 大 小 为 28x28 的 矩阵 ， 为 了 处 理 方便 ， 把 28x28 的 矩阵 转换 成 长 度 为 784 的 向 量 : 

















x train = x train.reshape (60000, 784) 
x test = x test.reshape (10000, 784) 
x train = x train.astype('float32') 
x test = x test.astype('float32') 

x train /= 255 

x test /= 255 






































keras.utils.to_categorical 很 方便 地 进行 转换 : 


图 片 识别 的 结果 是 0 ~ 9 这 10 个 数字 。 通 常 神经 网 络 算法 在 处 理 时 ， 习 惯 将 输出 以 独 热 编 码 的 形式 展现 ， 即 所 谓 One-Hot 编 码 ， 又 称 “ 一 位 有 效 编码 ”。 其 方法 是 使 用 N 位 状态 寄存 器 来 对 N 个 状态 进行 
编码 ， 每 个 状态 都 有 它 独 立 的 寄存 器 位 ， 并 且 在 任意 时 候 ， 其 中 只 有 一 位 有 效 。 比 如 以 二 分 类 问题 为 例 ， 结 果 为 真 表示 为 1， 反 之 为 0， 使 用 独 热 编码 ， 结 果 为 真 表示 为 10， 反 之 为 01。 在 Karas 中 可 以 使 























# convert class vectors to binary class matrices 
y_train = keras.utils.to categorical (y train, num classes) 
y_test = keras.utils.to categorical (y test, num classes) 









































下 面 是 整个 环节 的 重点 ， 构 造 一 个 隐藏 层 为 2 层 ， 每 层 节点 数 分 别 为 512、512， 输 出 层 节点 数 为 10 的 多 层 感 知 机 ， 使 用 Dense 函 数 即 可 完成 构造 全 连接 网 络 的 工作 ， 其 中 第 一 























层 需要 定义 输入 数据 的 形 


状 ， 具体 定义 方式 在 input_shape 属 性 指定 。 为 了 避免 过 拟 合 ， 每 层 之 间 使 用 Dropout 溯 数 进行 部 分 丢失 处 理 ， 适 度 的 丢失 数据 不 会 影响 分 类 识别 效果 ， 就 好 比 识别 一 张 照片 时 适度 遮 住 一 部 分 ， 不 会 影响 


分 类 识别 结果 : 





model = Sequential () 

model .add (Dense (512, activation='relu', input shape=(784,))) 
model .add (Dropout (0.2)) 

model .add (Dense (512, activation="'relu')) 

model .add (Dropout (0.2)) 

model .add (Dense (10, activation='softmax')) 




















完成 多 层 感知 机 的 结构 定义 后 ， 就 可 以 使 用 compile 函 数 “ 编 译 ” 整 个 网 络 ， 让 其 工作 : 








model .summary () 

model .compile (loss='categorical crossentropy', 
optimizer=RMSprop(), 
metrics=['accuracy']) 





整个 训练 过 程 需要 定义 训练 数据 集 和 测试 数据 集 ， 同 时 定义 训练 的 轮 数 ， 通 常 认 为 训练 轮 数 为 5 ~ 20 比 较 合适 ， 轮 数 太 少 训练 不 充分 ， 轮 数 太 多 则 训练 时 间 过 长 : 





history = model.fit (x train, y train, 
batch size=batch size, 
epochs=epochs, 
Verbose=1, 
validation data=(x test, y test)) 





最 后 评估 整个 训练 的 效果 ， 经 过 20 轮 训练 ， 准 确 率 为 98.1296: 





score = model.evaluate (x test, y test, verbose=0) 





Print('Test loss:', score[0]) 
print('Test accuracy:', score[1]) 
输出 结果 为 


Epoch 20/20 

60000/60000 【一 一 一 一 一 一 一 一 一 一 一 一 一- 一- 一 一 --] - 11s - loss: 0.0201 - acc: 0.9950 - val loss: 0.1224 - val acc: 0.9812 
('Test loss:', 0.12236141463853964) 

('Test accuracy:', 0.98119999999999996) 








1.5 ”本 章 小 结 























本 章 介绍 了 如 何 打 造 自己 的 深度 学 习 工 具 箱 ,介绍 了 TensorFlow、TFLearn、Paddle-Paddle 以 及 Karas 的 安装 方法 ， 并 结合 常见 的 MNIST 数 据 集 介 绍 了 以 上 工 . 





箱 的 使 























率 不 同 ， 这 不 代表 工具 本 身 的 优 和 学 。 这 里 只 是 给 大 家 一 个 基本 的 演示 ， 初 次 接触 这 些 代码 可 能 会 非常 茫然 ， 相 信 通 过 后 面 章节 的 介绍 ， 大 家 最 后 会 熟练 掌握 这 些 代码 。 





第 2 章 ” 卷 积 神经 网 络 


方式 ， 各 种 工 

















箱 识别 准确 














深度 学 习 模型 中 的 卷 积 神经 网 络 (Convolution Neural Network，CNN) 近年 来 在 图 像 领域 取得 了 惊人 的 成 绩 ，CNN 直 接 利 用 图 像 像素 信息 作为 输入 ， 最 大 程度 保留 了 输入 图 像 的 所 有 信息 ， 通 过 卷 
积 操作 进行 特征 的 提取 和 高 层 抽 象 ， 模 型 输出 直接 是 图 像 识 别 的 结果 。 这 种 基于 “输入 -输出 ”直接 端 到 端的 学 习 方法 取得 了 非常 好 的 效果 ， 得 到 了 广泛 的 应 用 。 本 章 重点 介绍 CNN 的 基本 原理 、 常 见 的 
CNN 结 构 以 及 代码 实现 ， 还 介绍 了 基于 CNN 的 文本 分 类 处 理 。 












































本 章 涉及 的 代码 请 参考 本 书 GitHub 的 cnn.py 文 件 。 


2.1 ”传统 的 图 像 分 类 算法 























图 像 分 类 是 根据 图 像 的 原始 信息 将 不 同类 别 图 像 区 分 开 来 ， 是 计算 机 视觉 中 重要 的 基本 问题 ， 也 是 图 像 检测 、 图 像 分 割 、 物 体 跟 踪 、 行 为 分 析 等 其 他 高 层 视觉 任务 的 基础 。 图 像 分 类 在 很 多 领域 有 广泛 
应 用 ， 包 括 安防 领域 的 人 脸 识别 和 智能 视频 分 析 ， 交 通 领 域 的 交通 场景 识别 ， 互 联网 领域 基于 内 容 的 图 像 检索 和 相册 自动 归 类 ， 医 学 领域 的 图 像 识 别 等 由 ， 如 图 2-1 所 示 。 























在 CNN 出 现 之 前 ， 图 像 分 类 算法 依赖 于 复杂 的 特征 工程 。 常 用 的 特征 提取 方法 包括 SIFT (Scale-lnvariant Feature Transform， 尺 度 不 变 特征 转换 ) 、HOG (Histogram of Oriented Gradient, 方 
向 梯度 直方 图 ) 、LBP (Local Bianray Pattern ， 局 部 二 值 模式 ) 等 ， 常 用 的 分 类 算法 为 SVM 。 












































buttercup barbeton daisy californian poppy 





carnation anthurium alpine sea holly bishop of llandaff 


图 2-1 像 分 类 识别 花 的 不 同 品种 




















[1] http://book.paddlepaddle.org/index.cn.html 


2.2 基于 CNN 的 图 像 分 类 算法 











人 们 尝试 直接 把 原始 图 像 作为 输入 ， 通 过 深度 学 习 算 法 直接 进行 图 像 分 类 ， 从 而 绕 过 复杂 的 特征 工程 。 下 面 介绍 几 个 重要 技术 点 。 
2.2.1 ”局 部 连接 





常见 的 深度 学 习 算 法 都 是 全 连接 形式 ， 所 谓 全 连接 ， 就 是 第 n-1 层 的 任意 一 个 节点 ， 都 和 第 n 层 所 有 节点 有 连接 ， 如 图 2-2 所 示 。 





第 h 一 1 层 



































答 入 层 隐藏 层 





图 2-3 输入 层 与 隐藏 层 全 连接 形式 








层 节点 数量 也 为 1000x 1000 = 1000000， 仅 输入 层 与 隐藏 层 的 连接 就 需要 1000000x1000000 = 1012， 几 乎 





以 一 个 大 小 为 1000x1000 的 灰 度 图 像 为 例 ， 输 入 层 节点 数量 为 1000x1000 = 1000000， 隐 藏 
是 个 天 文 数字 ， 如 此 巨大 的 计算 量 阻碍 了 深度 学 习 在 图 像 分 类 方向 的 应 用 。 
时 发 现 ， 一 个 视觉 神经 元 只 负责 处 理 视觉 图 像 的 一 小 块 ， 这 一 小 块 称 为 感受 野 (Receptive Field) ， 类 比 在 加 
































像 分 类 领域 ， 识 别 一 



































事情 的 转机 来 自 于 生物 学 的 一 个 发 现 。 人 们 在 研究 猫 的 视觉 神经 细 
像 是 何 种 物体 时 ， 一 个 点 与 距离 近 的 点 之 间 的 关联 非常 紧密 ， 但 是 和 


全 连接 视觉 神经 网 局 部 连接 视觉 神经 网 


























距离 远 的 点 之 间 关 系 就 不 大 了 ， 甚 至 足够 远 的 时 候 就 可 以 忽略 不 计 [0]， 如 图 2-4 所 示 。 





> 
网 














b) 局 部 连接 


























具体 到 深度 学 习 算法 上 ， 隐 藏 层 与 输入 层 之 间 ， 隐 藏 层 的 一 个 节点 只 处 理 一 部 分 输入 




















图 2-4 全 连接 与 局 部 连接 














层 结 点 的 数据 ， 形 成 局 部 连接 。 还 是 接 上 面 的 例子 ， 假 设 每 个 隐藏 层 的 节点 只 处 理 10x 10 大 小 的 数据 ， 也 就 是 说 每 

















个 隐藏 层 的 节点 只 与 输入 层 的 100 个 节点 连接 ， 这 样 在 隐藏 层 节点 数量 和 输入 层 节点 数量 不 变 的 情况 下 ， 输 入 层 与 隐藏 层 的 连接 需要 1000000x100 = 108， 是 全 连接 的 万 分 之 一 。 虽 然 计算 量 下 降 不 少 ， 但 














是 依然 十 分 巨大 。 局 部 连接 不 会 减少 隐藏 层 的 节点 数量 ,减少 的 是 隐藏 层 和 输入 层 之 间 的 


[1] http://blog.csdn.net/stdcoutzyx/article/details/41596663 


2.2.2 参数 共享 




















本 质 上 隐藏 层 的 一 个 节点 与 输入 层 一 个 节点 的 连接 ， 对 应 的 就 是 一 个 连接 参数 ， 大 量 的 连接 也 就 意味 着 大 量 的 参数 需要 计算 ， 仪 依靠 局 部 连接 技术 是 无 法 进一步 减少 计算 量 的 ， 于 是 人 们 又 提出 了 参数 























共享 方法 。 所 谓 的 参数 共享 是 基于 这 样 一 个 假设 : 一 部 分 图 像 的 统计 特性 与 完整 图 像 的 特性 相同 。 回 到 上 面 的 例子 ， 每 个 隐藏 层 的 节点 只 与 输入 层 的 100 个 节点 连接 ， 这 样 每 个 隐藏 层 节点 就 具有 100 个 参 

















数 ， 全 部 隐藏 层 就 具有 1000000x100 = 108 个 参数 ， 使 用 参数 共享 后 ， 每 个 隐藏 层 的 节点 都 具有 完全 相同 的 参数 ， 全 部 隐藏 层 就 只 有 100 个 参数 需要 计算 了 ， 这 大 大 减少 了 计算 量 ， 而 且 即 使 处 理 更 大 的 图 











像 ， 只 要 单一 隐藏 层 节点 与 输入 层 连 接 的 个 数 不 变 ， 全 部 隐藏 层 的 参数 个 数 也 不 变 。 这 种 
卷 积 核 。 


共享 参数 的 机 制 ， 可 以 理解 为 针对 





a) 原始 图 像 














图 2-5 原始 图 像 与 卷 积 核 











大 小 为 2x2 的 卷 积 核对 原始 图 像 第 1 个 2x 2 的 图 像 块 进行 卷 积 操作 ， 得 到 卷 积 结果 为 2 




















， 如 图 2-6 所 示 。 






































图 像 的 卷 积 操作 。 假 设 如 图 2-5 所 示 ， 具 有 一 个 4x4 大 小 的 图 像 和 一 个 2x2 大 小 的 




















b) 卷 积 核 





a) 原始 图 像 





b) 卷 积 处 理 结 果 


图 2-6” 卷 积 核对 原始 图 像 第 1 个 2X2 的 块 进行 处 理 





大 小 为 2x2 的 卷 积 核对 原始 图 像 第 2 个 2x2 的 图 像 块 进行 卷 积 操作 ， 得 到 卷 积 结果 为 1， 如 图 2-7 所 示 。 





























如 果 大 小 为 2x2 的 卷 积 核 依 次 对 原始 





图 像 进 行 卷 积 操作 ， 移 动 的 步 长 为 2， 最 终 获得 一 个 2x2 的 新 





b) 卷 积 处 理 结果 


2-7” 卷 积 核对 原始 图 像 第 2 个 2X2 的 块 进行 处 理 








图 像 ， 如 





图 2-8 所 示 。 








b) 卷 积 处 理 结果 











图 2-8” 卷 积 核对 原始 图 像 处 理 后 的 结果 




















可 见 卷 积 处 理 后 图 像 的 大 小 与 卷 积 核 的 大 小 无 关 ， 仅 与 步 长 有 关 ， 对 应 的 隐藏 层 的 节点 个 数 也 仅 与 步 长 有 关 。 另 外 需要 说 明 的 是 ， 卷 积 核 处 理 图 像 边 际 时 会 出 现 数据 缺失 ， 这 时 候 需要 将 图 像 补 全 ， 常 
见 的 补 全 方式 有 两 种 ，same 模 式 和 valid 模 式 ，same 模 式 会 使 用 0 数据 补 全 ， 而 且 保持 生成 图 像 与 原始 图 像 大 小 一 致 。 























如 果 使 用 same 模 式 ， 大 小 为 2x2 的 卷 积 核 依 次 对 原始 图 像 进行 卷 积 操作 ， 移 动 的 步 长 为 1， 最 终 获 得 一 个 4x4 的 新 图 像 ， 如 图 2-9 所 示 。 这 里 需要 再 次 强调 ， 当 步 长 为 1 时 ， 无 论 卷 积 核 大 小 如 何 ， 处 理 
前 后 图 像 大 小 不 变 ; 只 有 当 步 长 大 于 1 时 ， 处 理 后 的 图 像 才 会 变 小 。 

















a) 原始 图 像 b) 卷 积 处 理 结果 





图 2-9 ” 孝 积 核 使 用 same 模 式 对 原始 图 像 处 理 后 的 结果 











2.2.3 池 化 











通过 局 部 连接 和 参数 共享 后 ， 我 们 针对 1000x1000 的 图 像 ， 使 用 卷 积 核 大 小 为 10x10， 卷 积 步 长 为 1， 处 理 后 得 到 的 隐藏 层 节点 个 数 为 1000x1000 = 106， 计 算 量 还 是 太 大 。 为 了 解决 这 个 问题 ， 首 先 
回忆 一 下 ， 我 们 之 所 以 决定 使 用 卷 积 后 的 特征 是 因为 图 像 具 有 一 种 “静态 性 ”的 属性 ， 这 也 就 意味 着 在 一 个 图 像 区 域 有 用 的 特征 极 有 可 能 在 另 一 个 区 域 同 样 适用 。 因 此 ， 为 了 描述 大 的 图 像 ， 一 个 很 自然 的 
想法 就 是 对 不 同位 置 的 特征 进行 聚合 统计 ， 例 如 ， 人 们 可 以 计算 图 像 一 个 区 域 上 的 某 个 特定 特征 的 平均 值 (或 最 大 值 ) 。 这 种 聚合 的 操作 就 叫做 池 化 。 常 见 的 池 化 大 小 为 2<2、3x 3 等， 假设 隐藏 层 节点 个 
数 为 4x4， 使 用 2x2 大 小 池 化 ， 取 最 大 值 ， 过 程 如 图 2-10 所 示 。 






























































b) 池 化 结果 





2-10 池 化 处 理 











隐藏 层 节点 个 数 为 1000x1000 的 神经 网 络 ， 经 过 2x2 池 化 后 ， 得 到 的 隐藏 层 节点 个 数 为 500x500 = 25x104。 


2.2.4 典型 的 CNN 结 构 及 实现 








典型 的 CNN 包 含 卷 积 层 、 全 连接 层 等 组 件 ， 并 采用 softmax 多 类 别 分 类 器 和 多 类 交叉 燥 失 函 数 ， 一 个 典型 的 卷 积 神经 网 络 如 图 2-11 所 示 。 我 们 先 介绍 用 来 构造 CNN 的 常见 组 件 。 


输入 层 ” 卷 积 层 ”4 特征 图 




















卷 积 层 降 采 样 ( 池 化 ) 层 卷 积 层 降 采 样 ( 池 化 ) 层 全 连接 层 








2-11 典型 的 CNN 结 构 














“ 卷 积 层 ， 执 行 卷 积 操作 提取 底层 到 高 层 的 特征 ， 发 据 图 片 局 部 关联 性 质 和 空间 不 变性 质 。 




















“ 池 化 层 ， 通 过 抽取 卷 积 输出 特征 图 中 局 部 区 块 的 最 大 值 或 者 均值 ， 执 行 降 采 样 操 作 。 降 采样 也 是 图 像 处 理 中 常见 的 一 种 操作 ， 可 以 过 滤 掉 一 些 不 重要 的 高 频 信息 。 

















“ 全 连接 层 ， 输 入 层 到 隐藏 层 的 神经 元 是 全 部 连接 的 。 
: 非 线性 变化 ， 卷 积 层 、 全 连接 层 后 面 一 般 都 会 接 非 线性 变化 层 ， 例 如 Sigmoid、Tanh、ReLu 等 来 增强 网 络 的 表达 能 力 ， 在 CNN 里 最 常 使 用 的 是 ReLu 激 活 函 数 。 


: Dropout， 在 模型 训练 阶段 随机 让 一 些 隐 层 节点 不 工作 ， 提 高 神经 网 络 的 泛 化 能 力 ， 一 定 程度 上 可 防止 过 拟 合 。 





这 一 点 就 好 比 人 眼 在 识别 图 的 时 候 ， 适 当 遮 住 一 部 分 图 像 并 不 会 影响 识别 结果 一 样 。 相 对 于 浅 层 学习 的 SVM、KNN 和 朴素 贝 叶 斯 等 ， 深 度 学 习 由 于 参数 众多 ， 更 容易 出 现 过 拟 合 的 现象 ， 所 以 一 般 都 需 
要 使 用 Dropout 的 机 制 。 

















以 处 理 经 典 的 MNIST 数 据 集 为 例 ，M NIST 数 据 集 作 为 一 个 简单 的 计算 机 视觉 数据 集 ， 包 含 一 系列 如 图 2-12 所 示 的 手写 数字 图 片 和 对 应 的 标签 。 图 片 是 28x28 的 像素 和 矩阵， 标签 则 对 应 着 0 ~ 9 的 10 个 数 
字 。 每 张 图 片 都 经 过 了 大 小 归 一 化 和 居中 处 理 。 
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图 2-12 











处 理 MNIST 的 CNN 结 构 如 图 2-13 所 示 ， 这 是 一 个 TensorFlow 的 结构 输出 图 
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简化 表示 的 结构 图 如 图 2-14 所 示 ，TensorFlow 中 将 处 理 的 数据 统一 抽象 为 张 量 ， 即 所 谓 的 Tensor， 原 始 大 小 为 28x28 的 





1) 卷 积 核 大 小 为 3x 3 数量 为 32 的 卷 积 处 理 。 
2) 池 化 大 小 为 2x2 的 池 化 处 理 。 


3) 卷 积 核 大 小 为 3x 3 数量 为 64 的 卷 积 处 理 。 





4) 池 化 大 小 为 2x2 的 池 化 处 理 以 及 最 后 的 全 连接 处 理 。 





5) 最 后 得 到 长 度 为 10 的 一 维 张 量 ， 对 应 正好 是 | 


网 








像 识 别 后 的 结果 ， 即 数字 0 ~ 9。 
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2-13 ”典型 的 CNN 结 构 (TensorFlow) 





哆 | 








像 可 以 抽象 成 大 小 为 28x28 张 量 ， 张 量 依次 经 过 : 










卷 积 处 理 池 化 处 理 
.0 池 化 大 小 2x2 
从- 







张 量 
28 x28x1 





池 化 处 理 卷 积 处 理 
池 化 大 小 2x2 卷 积 核 大 小 3x3 


数量 为 64 


图 2-14 简化 的 典型 CNN 结 构 











完整 的 处 理 流程 如 图 2-15 所 示 ， 其 中 Dropout 合 并 到 全 连接 处 理 中 没有 画 出 来 。 


只 处 
张 量 卷 积 处 理 
28Xx28x1l 


卷 积 核 大 小 3 x 3 
数量 为 32 

池 化 处 理 张 量 

池 化 大 小 2x 2 14x14x64 












张 量 池 化 处 理 
28 x 28 x 32 池 化 大 小 2x 2 





卷 积 处 理 
卷 积 核 大 小 3 x 3 
数量 为 64 


张 量 张 量 隐藏 层 128 个 
-一 维 向 量 、 
7x7x64 转换 成 一 维 向 量 3136x1 节点 的 全 连接 


隐藏 层 10 个 节点 量 隐藏 层 256 个 
的 全 连接 5 节点 的 全 连接 


张 量 
14 x 14 x 32 














2-15 典型 的 CNN 结 构 完整 处 理 流程 











下 面 我 们 基于 TensorFlow 一 步 一 步 使 用 代码 实现 上 述 过 程 。 








每 张 图 片 大 小 为 22x28， 可 以 当做 一 个 28x28 的 矩阵 ，CNN 输 入 层 的 大 小 为 282x28， 由 于 图 像 是 灰 度 图 像 ， 每 个 像素 取 值 为 0 或 者 1， 定 义 输入 为 [None，28，28，1]， 这 样 就 获得 了 大 小 为 28x28 的 张 


























好 





network = input data(shape=[None, 28, 28, 1], name='input') 








使 用 卷 积 处 理 ， 卷 积 核 大 小 为 3x3， 卷 积 核 数 量 为 32， 可 以 理解 为 通过 3x3 大 小 的 卷 积 操作 ， 提 取 32 种 特征 ， 处 理 后 的 张 量 大 小 为 28x28x32， 激 活 函 数 使 用 relu: 








使 用 池 化 处 理 ， 池 化 大 小 为 2x2， 人 处 理 后 的 张 量 大 小 为 14x14x32: 








network = max pool 2d (network, 2) 








使 用 卷 积 处 理 ， 卷 积 核 大 小 为 3x3， 卷 积 核 数量 为 64， 可 以 理解 为 通过 3x3 大 小 的 卷 积 操作 ， 提 取 64 种 特征 ， 处 理 后 的 张 量 大 小 为 14x 14x 64: 

















使 用 池 化 处 理 ， 池 化 大 小 为 2x2， 处 理 后 的 张 量 大 小 为 7x7x64: 











network = max pool 2d (network，2) 





标准 化 处 理 张 量 ， 将 大 小 为 7x7x64 的 张 量 转化 为 长 度 为 3136 的 一 维 张 量 ， 并 与 节点 数 为 128 的 隐藏 


local_response_normalization 即 local response normalization 最 早 是 由 Krizhevsky 和 Hinton 在 关于 ImageNet 的 论文 呈 


network = local_response_normalization (network) 
network = fully connected (network, 128, activation="'tanh') 
network = dropout (network, 0.8) 














层 进行 全 连接 ， 为 了 避免 过 拟 合 ， 使 用 Dropout 让 部 分 节点 临时 失效 。 其 中 函数 





面 使 用 的 一 种 数 














居 标 准 化 方法 : 




















再 与 节点 数 为 256 的 隐藏 层 进行 全 连接 ， 为 了 避免 过 拟 合 ， 继 续 使 用 Dropout 让 部 分 节点 临时 失效 : 











network = fully connected (network, 256, activation="'tanh') 
network = dropout (network, 0.8) 











最 后 再 与 节点 数 为 10 的 输出 层 进 行 全 连接 ， 获 得 长 度 为 10 的 一 维 张 量 ， 至 此 我 们 使 用 CNN， 完 成 了 大 小 为 28x 28 的 张 量 到 大 小 为 1x10 的 张 量 的 训练 转化 : 

















network = fully connected (network, 10, activation='softmax') 
network = regression (network, optimizer='adam', learning rate=0.01, 
loss='categorical crossentropy', name='target') 











值得 一 提 的 是 ， 这 里 使 用 了 多 种 激活 函数 ， 常 见 的 激活 函数 有 : sigmoid 函 数 、tanh 函 数 、ReLU 函 数 ， 如 图 
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2-16~ 











图 2-16 ”sigmoid 浮 数 


2-18 所 示 。 





图 2-17 ”tanh 函 数 





-10 -5 5 10 


2-18 ReLU 函 数 














2.2.5 ”AlexNet 的 结构 及 实现 





AlexNet 是 在 2012 年 发 表 的 一 个 经 典 之 作 ， 并 在 当年 取得 了 ImageNet 最 好 成 绩 ， 其 官方 提供 的 数据 模型 ， 准 确 率 达 到 57.1%，top1 ~ 5 达到 80.2%。 与 传统 的 机 器 学 习 分 类 算法 相 比 ， 这 个 结果 已 经 相 
当 出 色 。 








AlexNet 一 共有 8 层 组 成 ， 其 中 3 个 卷 积 层 5 个 全 连接 层 ， 如 图 2-19 所 示 。 











pooling 2048 2048 





图 2-19 ”AlexNet 结 构 


以 处 理 经 典 的 Oxford's17Category Flower 数 据 集 为 例 ， 如 图 2-20 所 示 。Oxford' s 17Category Flower 数 据 集 是 一 个 不 同 种 类 鲜花 的 图 像 数据 ， 包 含 17 个 不 同 种 类 的 鲜花 ， 每 类 80 张 该 类 鲜花 的 图 
片 ， 这 些 鲜花 种 类 是 英国 地 区 常见 的 。 














Cowslip Tulip Tigerlily Crocus Bluebell Lily Valey Snowdrop Windflower Sunflower Pansy i iti Dandelion Daisy Daffodil Colts’Foot Buttercup 





图 2-20 ”Oxford”s17Category Flower 数 据 集 


每 张 图 片 大 小 为 227x 224， 通 道 数 为 3， 所 以 对 应 的 张 量 大 小 为 227x227x3。 部 分 文献 记录 图 片 大 小 为 224， 这 不 影响 本 文 的 描述 与 代码 实现 。 








处 理 Oxford”s 17Category Flower 数 据 集 的 AlexNet 结 构 如 图 2-21 所 示 ， 这 是 一 个 TensorFlow 的 结构 输出 图 。 
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图 2-21 AlexNet 结 构 (TensorFlow) 


简化 后 的 处 理 流程 如 图 2-22 所 示 ， 大 小 为 227x227x3 张 量 经 过 如 下 处 理 : 





1) 卷 积 核 大 小 为 11x11 数 量 为 96 的 卷 积 处 理 。 
2) 池 化 大 小 为 3x3 的 池 化 处 理 。 


3) 卷 积 核 大 小 为 5x 5 数量 为 256 的 卷 积 处 理 。 


上 


池 化 大 小 为 3x3 的 池 化 处 理 。 


5) 卷 积 核 大 小 为 3x 3 数量 为 384 的 卷 积 处 理 。 


Oo 


卷 积 核 大 小 为 3x 3 数量 为 384 的 卷 积 处 理 。 


7) 卷 积 核 大 小 为 3x 3 数量 为 256 的 卷 积 处 理 。 





oo 


池 化 大 小 为 3x 3 的 池 化 处 理 以 及 最 后 的 全 连接 处 理 。 


9) 最 后 得 到 长 度 为 17 的 一 维 张 量 ， 对 应 正好 是 图 像 识 别 后 的 结果 ， 即 对 应 到 17 种 花卉 中 的 某 一 种 。 





张 量 苍 积 处 理 池 化 处 理 卷 积 处 理 
en 卷 积 核 大 小 11 x 11 池 化 大 小 3 x3 卷 积 核 大 小 5 x5 
i 数量 为 96 步 长 4 步 长 2 数量 为 256 


卷 积 处 理 卷 积 处 理 卷 积 处 理 池 化 处 理 
卷 积 核 大 小 3 x 3 卷 积 核 大 小 3 x 3 卷 积 核 大 小 3 x 3 池 化 大 小 3 x3 
数量 为 256 数量 为 384 数量 为 384 步 长 2 


池 化 处 理 
池 化 大 小 3x3 
步 长 2 














2-22 简化 的 AlexNet 结 构 





下 面 我 们 基于 TensorFlow 一 步 一 步 使 用 代码 实现 上 述 过 程 。 











每 张 图 片 大 小 为 227x227 可 以 当做 一 个 227x227 的 和 矩阵 ，CNN 输 入 层 的 大 小 为 227x227， 由 于 图 像 通道 数 为 3， 定 义 输入 为 [None，227，227，3]， 这 样 我 们 就 获得 了 大 小 为 227x227x3 的 张 量 : 




















network = input_qata(shape=[None，227，227，3]) 








使 用 卷 积 处 理 ， 卷 积 核 大 小 为 11x11， 卷 积 核 数量 为 96， 步 长 为 4， 可 以 理解 为 通过 11x11 大 小 的 卷 积 操 作 ， 提 取 96 种 特征 ， 处 理 后 的 张 量 大 小 为 56x 56x3x96， 激 活 函数 使 用 relu: 





network = conv 2d (network, 96, 11, strides=4, activation="'relu') 





使 用 池 化 处 理 ， 池 化 大 小 为 3x3， 步 长 为 2: 





network = max pool 2d(network, 3, strides=2) 





使 用 卷 积 处 理 ， 卷 积 核 大 小 为 5x5， 卷 积 核 数量 为 256: 








network = conv 2d (network, 256, 5, activation='relu" 





使 用 池 化 处 理 ， 池 化 大 小 为 3x3， 步 长 为 2: 








network = max pool 2d(network, 3, strides=2) 





使 用 卷 积 处 理 ， 卷 积 核 大 小 为 3x3， 卷 积 核 数 量 为 384: 





network = conv 2d (network, 384, 3, activation='relu' 





使 用 卷 积 处 理 ， 卷 积 核 大 小 为 3x3， 卷 积 核 数量 为 384: 





network = conv 2d (network，384，3，activation='relu' 











使 用 卷 积 处 理 ， 卷 积 核 大 小 为 3x3， 卷 积 核 数量 为 256: 











network = conv 2d (network，256，3，activation='relu' 





使 用 池 化 处 理 ， 池 化 大 小 为 3x3， 步 长 为 2: 





network = max pool 2d(network, 3, strides=2) 














标准 化 处 理 张 量 ， 并 与 节点 数 为 4096 的 隐藏 层 进行 全 连接 ， 为 了 避免 过 拟 合 ， 使 用 Dropout 让 部 分 节点 临时 失效 : 

















network = local_ response normalization (network) 
network = fully connected (network, 4096, activation='tanh') 


network = dropout (network, 0.5) 
etwork = fully connected (network, 4096, activation='tanh') 
network = dropout (network, 0.5) 














最 后 再 与 节点 数 为 17 的 隐藏 层 进行 全 连接 ， 获 得 长 度 为 17 的 一 维 张 量 ， 至 此 ， 我 们 使 用 AlexNet， 完 成 了 大 小 为 227x227x3 的 张 量 到 大 小 为 1x17 的 张 量 的 训练 转化 : 

















network = fully connected (network，17，activation='softmax') 
network = regression (network, optimizer='adam', learning rate=0.01, 
loss='categorical crossentropy', name='target') 





2.2.6 VGG 的 结构 及 实现 


牛津 大 学 VGG (Visual Geometry Group) 组 在 2014 年 ILSVRC 提 出 的 模型 被 称 作 VGG 模 型 ， 跟 以 往 模型 相 比 ， 该 模型 进一步 加 宽 和 加 深 了 网 络 结构 ， 它 的 核心 是 5 组 卷 积 操作 ， 每 两 组 之 间 做 Max- 
Pooling 空 间 降 维 。 同 一 组 内 采用 多 次 连续 的 3x3 卷 积 ， 卷 积 核 的 数目 由 较 浅 组 的 64 增 多 到 最 深 组 的 512， 同 一 组 内 的 卷 积 核 数 目 是 一 样 的 。 卷 积 之 后 接 两 层 全 连接 层 ， 之 后 是 分 类 层 。 由 于 每 组 内 卷 积 层 的 
































































































































不 同 ， 有 11、13、16、19 层 这 几 种 模型 ， 图 2-23 展 示 一 个 16 层 的 网 络 结构 。VGG 模 型 结构 相对 简洁 ， 提 出 之 后 也 有 很 多 文章 基于 此 模型 进行 研究 ， 如 在 lImageNet 上 首次 公开 超过 人 眼 识 别 的 模型 就 是 借 
鉴 VGG 模 型 的 结构 。 
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图 2-23 VGG 结 构 























依然 使 用 经 典 的 Oxford'”s 17Category Flower 数 据 集 为 例 。 每 张 图 片 大 小 为 227x224， 通 道 数 为 3， 所 以 对 应 的 张 量 大 小 为 227x227x3。 部 分 文献 记录 图 片 大 小 为 224， 这 不 影响 本 文 的 描述 与 代码 





























处 理 Oxford' s 17Category Flower 数 据 集 的 VGG 结 构 如 图 2-24 所 示 ， 这 是 一 个 TensorFlow 的 结构 输出 图 。 














简化 后 的 处 理 流程 如 下 所 示 ， 大 小 为 227x227x3 张 量 经 过 如 下 处 理 : 


1) 卷 积 核 大 小 为 3x 3 数量 为 64 的 卷 积 处 理 ， 激 活 函数 为 relu。 





[D 


卷 积 核 大 小 为 3x 3 数量 为 64 的 卷 积 处 理 ， 激 活 函 数 为 relu。 
3) 池 化 大 小 为 2x2 的 池 化 处 理 。 
4) 卷 积 核 大 小 为 3x 3 数量 为 128 的 卷 积 处 理 ， 激 活 函 数 为 relu。 


5) 卷 积 核 大 小 为 3x 3 数量 为 128 的 卷 积 处 理 ， 激 活 函 数 为 relu。 


Oo 


池 化 大 小 为 2x2 的 池 化 处 理 。 


7) 卷 积 核 大 小 为 3x 3 数量 为 256 的 卷 积 处 理 ， 激 活 函 数 为 relu。 





oo 


卷 积 核 大 小 为 3x 3 数量 为 256 的 卷 积 处 理 ， 激 活 函 数 为 relu。 











9) 卷 积 核 大 小 为 3x 3 数量 为 256 的 卷 积 处 理 ， 激 活 函数 为 relu。 
10) 池 化 大 小 为 2x2 的 池 化 处 理 。 

11) 卷 积 核 大 小 为 3x 3 数量 为 512 的 卷 积 处 理 ， 激 活 函数 为 relu。 
12) 卷 积 核 大 小 为 3x 3 数量 为 512 的 卷 积 处 理 ， 激 活 函数 为 relu。 
13) 卷 积 核 大 小 为 3x 3 数量 为 512 的 卷 积 处 理 ， 激 活 函 数 为 relu。 
14) 池 化 大 小 为 2x2 的 池 化 处 理 。 


15) 卷 积 核 大 小 为 3x 3 数量 为 512 的 卷 积 处 理 ， 激 活 函 数 为 relu。 














16) 卷 积 核 大 小 为 3x 3 数量 为 512 的 卷 积 处 理 ， 激 活 函 数 为 relu。 
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图 2-24 VGG 结 构 (TensorFlow) 
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图 2-24  〈 续 ) 
17) 卷 积 核 大 小 为 3x 3 数量 为 512 的 卷 积 处 理 ， 激 活 函 数 为 relu。 
18) 池 化 大 小 为 2x2 的 池 化 处 理 以 及 与 节点 数 为 4096 的 隐藏 层 全 连接 。 


19) 最 后 得 到 长 度 为 17 的 一 维 张 量 ， 对 应 正好 是 图 像 识别 后 的 结果 ， 即 对 应 到 17 种 花卉 中 的 某 一 种 。 





简化 后 的 VGG 结 构 如 图 2-25 所 示 。 





下 面 我 们 基于 TensorFlow 一 步 一 步 使 用 代码 实现 上 述 过 程 。 
每 张 图 片 大 小 为 227x227 可 以 当做 一 个 227x227 的 矩阵 ，VGG 输 入 层 的 大 小 为 227x227， 由 于 图 像 通 道 数 为 3， 定 义 输入 为 [None，227，227，3]， 这 样 我 们 就 获得 了 大 小 为 227x227x3 的 张 量 : 








network = input_qata(shape=[None，227，227，3]) 





使 用 连续 两 个 卷 积 层 处 理 ， 每 层 都 是 卷 积 核 大 小 为 3x3， 卷 积 核 数量 为 64， 可 以 理解 为 通过 3x3 大 小 的 卷 积 操 作 ， 提 取 64 种 特征 ， 激 活 函 数 使 用 relu : 





network = conv 2d (network, 64, 3, activation='relu') 
network = conv 2d (network, 64, 3, activation='relu') 





使 用 池 化 处 理 ， 池 化 大 小 为 2x2， 步 长 为 2: 





network = max pool 2d(network, 2, strides=2) 
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图 2-25 ”简化 的 VGG 结 构 











使 用 连续 两 个 卷 积 层 处 理 ， 每 层 都 是 卷 积 核 大 小 为 3x3， 卷 积 核 数量 为 128， 可 以 理解 为 通过 3x3 大 小 的 卷 积 操作 ， 提 取 128 种 特征 ， 激 活 函 数 使 用 relu : 


池 化 处 理 
池 化 大 小 2 x2 
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network = conv 2d (network, 128, 3, activation='relu') 
network = conv 2d (network, 128, 3, activation='relu') 





使 用 池 化 处 理 ， 池 化 大 小 为 2x2， 步 长 为 2: 





network = max pool 2d(network, 2, strides=2) 








使 用 连续 3 个 卷 积 层 处 理 ， 每 层 都 是 卷 积 核 大 小 为 3x3， 卷 积 核 数 量 为 256， 可 以 理解 为 通过 3x 3 大 小 的 卷 积 操作 ， 提 取 256 种 特征 ， 激 活 函 数 使 用 relu : 





network = conv 2d (network, 256, 3, activation='relu') 
network = conv 2d (network, 256, 3, activation='relu') 
network = conv 2d (network, 256, 3, activation='relu') 





使 用 池 化 处 理 ， 池 化 大 小 为 2x2， 步 长 为 2: 





network = max pool 2d(network, 2, strides=2) 








使 用 连续 3 个 卷 积 层 处 理 ， 每 层 都 是 卷 积 核 大 小 为 3x3， 卷 积 核 数 量 为 512， 可 以 理解 为 通过 3x 3 大 小 的 卷 积 操作 ， 提 取 512 种 特征 ， 激 活 函 数 使 用 relu : 





network = conv 2d (network, 512, 3, activation='relu') 
network = conv 2d (network, 512, 3, activation='relu') 
network = conv 2d (network, 512, 3, activation='relu') 





使 用 池 化 处 理 ， 池 化 大 小 为 2x2， 步 长 为 2: 





network = max pool 2d(network, 2, strides=2) 











使 用 连续 3 个 卷 积 层 处 理 ， 每 层 都 是 卷 积 核 大 小 为 3x3， 卷 积 核 数 量 为 512， 可 以 理解 为 通过 3x3 大 小 的 卷 积 操作 ， 提 取 512 种 特征 ， 激 活 函数 使 用 relu: 





network = conv 2d (network, 512, 3, activation='relu') 
network = conv 2d (network, 512, 3, activation='relu') 
network = conv 2d (network, 512, 3, activation='relu') 











使 用 池 化 处 理 ， 池 化 大 小 为 2x2， 步 长 为 2: 











network = max pool 2d(network, 2, strides=2) 











与 节点 数 为 4096 的 隐藏 层 进行 全 连接 ， 为 了 避免 过 拟 合 ， 使 用 Dropout 让 部 分 节点 临时 失效 : 




















network = local response normalization (network) 

network = fully connected (network, 4096, activation='tanh') 
network = dropout (network, 0.5) 

etwork = fully connected (network, 4096, activation='tanh') 
network = dropout (network, 0.5) 











最 后 再 与 节点 数 为 17 的 隐藏 层 进 行 全 连接 ， 获 得 长 度 为 17 的 一 维 张 量 ， 至 此 我 们 使 用 VGG， 完 成 了 大 小 为 227x227x3 的 张 量 到 大 小 为 1x17 的 张 量 的 训练 转化 : 




















network = fully connected (network，17，activation='softmax') 
network = regression (network, optimizer='rmsprop', 
loss='categorical crossentropy', 
learning rate=0.0001) 





2.3 基于 CNN 的 文本 处 理 














CNN 的 诞生 是 为 了 解决 图 像 处 理 领 域 计 算 量 巨大 而 无 法 进行 深度 学 习 的 问题 ，CNN 通 过 卷 积 计算 、 池 化 等 大 大 降低 了 计算 量 ， 同 时 识别 效果 满足 需求 。 图 像 通常 是 二 维 数组 ， 文 字 通 常 都 是 一 维 数据 ， 
是 否 可 以 通过 某 种 转换 后 ， 也 使 用 CNN 对 文字 进行 处 理 呢 ? 答案 是 肯定 的 。 



































2.3.1 典型 的 CNN 结 构 











我 们 回顾 一 下 在 图 像 处 理 时 CNN 是 如 何 处 理 二 维 数据 的 。 如 图 2-26 所 示 ，CNN 使 用 二 维 卷 积 函数 处 理 小 块 图 像 ， 提 炼 高 级 特征 进行 进一步 分 析 。 典 型 的 二 维 卷 积 函 数 处 理 图 片 的 大 小 为 3x3、4x4 等 。 
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2-26 CNN 处理 图 像 数 据 的 过 程 























同样 原理 ， 我 们 可 以 使 用 一 维 的 卷 积 尔 数 处 理 文字 片段 ， 提 炼 高 级 特征 进行 进一步 分 析 ， 如 图 2-27 所 示 。 典 型 的 一 维 卷 积 沙 数 处 理 文字 片段 的 大 小 为 3、4、5 等 。 














nxkrepresentation of Convolutional layer with Max-over-time Fully connected layer 
sentence with static and multiple filter widths and pooling with dropout and 
non-static channels feature maps softmax output 








2-27 CNN 处 理 文本 数据 的 过 程 








这 要 感谢 Yoon Kim 的 经 典 论文 《Convolutional Neural Networks for Sentence Classification》。 








基于 TensorFlow 的 处 理 文本 的 CNN 的 结构 如 图 2-28 所 示 。 
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图 2-28 处理 文本 的 CNN 结 构 (TensorFlow) 








2.3.2 ”典型 的 CNN 代 码 实 现 





定义 CNN 模 型 ， 其 使 用 数量 为 128 核 ， 长 度 分 别 为 3、4、5 的 3 个 一 维 卷 积 函数 处 理 数 据 。 


使 用 卷 积 处 理 ， 卷 积 核 长 度 为 3， 卷 积 核 数量 为 128， 可 以 理解 为 通过 长 度 为 3 的 卷 积 操作 ， 提 取 128 种 特征 ， 激 活 函 数 使 用 relu : 





branchl = convV_1d (network，128，3，Ppadding='valid'，activation='relu'，Tegularizer="L2") 





使 用 卷 积 处 理 ， 卷 积 核 长 度 为 4， 卷 积 核 数 量 为 128， 可 以 理解 为 通过 长 度 为 4 的 卷 积 操作 ， 提 取 128 种 特征 ， 激 活 函 数 使 用 relu : 





branch2 = conv 1d(network, 128, 4, padding='valid', activation='relu', regularizer="L2") 





使 用 卷 积 处 理 ， 卷 积 核 长 度 为 5， 卷 积 核 数量 为 128， 可 以 理解 为 通过 长 度 为 5 的 卷 积 操作 ， 提 取 128 种 特征 ， 激 活 函 数 使 用 relu : 





branch3 = conv ld(network, 128, 5, padding='valid', activation='relu', regularizer="L2") 





合并 以 上 3 个 卷 积 的 处 理 后 的 结果 ， 并 使 用 一 个 全 连接 处 理 ， 输 出 结果 为 一 个 节点 为 2 的 输出 层 : 





network = merge ([branchl, branch2, branch3], mode='concat', axis=1) 

network = tf.expand dims (network, 2) 

network = global max pool (network) 

network = dropout (network, 0.8) 

network = fully connected (network, 2, activation="'softmax') 

network = regression (network, optimizer="'adam', learning rate=0.001, 
loss='categorical crossentropy', name='target') 





2.4 本章 小 结 


本 章 重 点 介绍 了 CNN 的 基本 原理 、 典 型 的 CNN 结 构 和 基于 TensorFlow 代 码 实现 ， 结 合 MNIST 数 据 集 ， 详 细 介 绍 了 整个 数据 处 理 过 程 以 及 张 量 的 大 小 变化 ， 介 绍 了 CNN 的 高 级 形式 AlexNet 和 VGG 的 结 
构 和 基于 TensorFlow 的 代码 实现 ， 并 结合 Oxford”s 17Category Flower 数 据 集 ， 详 细 介绍 了 整个 数据 处 理 过 程 。 











第 3 章 ”循环 神经 网 络 


在 《Web 安 全 之 机 器 学 习 入 门 》 中 ， 我 们 介绍 了 大 量 的 机 器 学 习 算法 ， 比 如 SVM、KNN、 朴 素 贝 叶 斯 等 ， 它 们 经 常用 于 解决 分 类 问题 。 但 是 在 生活 中 还 有 一 类 问题 ， 比 如 提供 一 套 视频 ， 让 你 根据 视 
频 判断 发 生 了 什么 ， 这 类 问题 本 质 上 是 需要 处 理 序列 化 的 数据 。 假 如 让 机 器 分 析 漫 画 《火影 忍者 》 中 的 一 集 ， 机 器 分 析 鸣 人 微笑 的 这 张 视频 截图 ( 见 图 3-1) ， 机 器 只 能 判断 大 概 50% 的 概率 是 鸣 人 刚 吃 完 泡 
面 很 开心 ，30% 的 概率 是 鸣 人 被 火影 或 者 师傅 表扬 ， 剩 下 20% 的 概率 是 可 能 打架 打 赢 了 ， 如 果 没有 上 下 文 ， 只 能 判断 到 这 种 地 步 了 。 


























图 3-1 鸣 人 微笑 的 图 片 





但 是 如 果 机 器 记 住 了 视频 开始 的 时 候 ， 鸣 人 正和 佐助 格斗 〈( 见 图 3-2) ， 那 么 就 可 以 80% 以 上 的 概率 判断 鸣 人 微笑 是 因为 打 赢 了 。 
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这 个 例子 给 我 们 的 启发 是 ， 处 理 序列 化 的 数据 ， 比 如 视频 或 者 Linux 下 一 段 命 


经 网 络 。 
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3-2 ” 呜 人 和 住 助 格斗 的 图 片 











行 操作 记录 等 ， 准 确 的 识别 与 判断 需要 依赖 上 下 文 ， 或 者 说 需要 能 够 保存 一 段 时 间 的 记忆 来 辅助 判断 ， 这 就 引入 了 循环 神 


本 章 重 点 介绍 循环 神经 网 络 的 基本 概念 及 其 主要 实现 形式 和 应 用 场景 ， 包 括 序列 分 类 、 序 列 生成 、 序 列 标记 以 及 序列 转换 (也 称 为 序列 翻译 ) ， 并 介绍 了 在 TensorFlow 环 境 下 的 代码 实现 。 








本 章 演示 代码 请 参考 本 书 GitHub 上 的 rnn.py 文 件 。 


3.1 ”循环 神经 算法 概述 























RNN (Recurrent Neural Networks， 循 环 神经 网 络 ) 是 深度 学 习 算 法 中 非常 有 名 的 一 种 算法 。RNN 之 所 以 称 为 循环 神经 网 络 ， 是 因为 一 个 序列 当前 的 输出 与 前 面 的 输出 也 有 关 。 有 具体 的 表现 形式 为 ， 
网 络 会 对 前 面 的 信息 进行 记忆 并 应 用 于 当前 输出 的 计算 中 ， 即 隐藏 层 之 间 的 节点 不 再 无 连接 而 是 有 连接 的 ， 并 且 隐 藏 层 的 输入 不 仅 包括 输入 层 的 输出 还 包括 上 一 时 刻 隐藏 层 的 输出 。 理 论 上 ，RNN 能 够 对 任 
何 长 度 的 序列 数据 进行 处 理 。 但 是 在 实践 中 ， 为 了 降低 复杂 性 往往 假设 当前 的 状态 只 与 前 面 的 几 个 状态 相关 []。 


































































































RNN 的 独特 能 力 来 自 于 它 的 特殊 结构 ， 如 图 3-3 所 示 ，x 代 表 输入 ，h 代 表 输 出 ， 输 出 的 一 部 分 会 作为 输入 的 一 部 分 重新 输入 ， 于 是 RNN 具 有 了 一 定 的 记忆 性 。 





















































把 RNN 神 经 元 展开 来 分 析 ， 图 3-3 中 的 RNN 等 效 于 一 连 串 共享 系数 的 神经 元 串联 在 一 起 (如 图 3-4 所 示 ) ， 这 也 就 解释 了 RNN 特 别 适合 处 理 时 序数 据 的 原因 。 



































图 3-3 ”RNN 结 构 示例 (一) 


忆 ) ， 


1 





但 是 生活 的 经 验 告诉 我 们 ， 对 于 比较 复杂 的 情况 ， 只 分 析 时 序数 





LSTM 可 以 在 更 长 的 时 间 范 围 来 分 析 时 序数 据 ， 如 




















图 3-5 所 示 。 


图 3-4 RNN 结 构 示 例 (二) 


-一 一 一 全 


居 的 最 近 几 个 数据 难以 得 到 合理 的 结果 ， 需 要 更 长 的 记忆 来 追根 溯源 ， 于 是 就 有 了 LSTM (Long Short Term Memory， 长 短程 记 


图 3-5 RNN 之 LSTM 示 例 


LSTM 的 关键 就 是 神经 细胞 状态 ， 水 平 线 在 图 上 方 贯穿 运行 ， 细 胞 状态 类 似 于 传送 带 ， 状 态 通 过 水 平 线 在 细胞 之 间 传 递 ( 见 





LSTM 有 通过 精心 设计 的 称 作 “ 门 ”的 结构 来 去 除 或 者 增加 信息 到 细胞 状态 的 能 力 。 门 是 一 种 让 信息 选择 式 通过 的 方法 ， 包 含 一 个 Sigmoid 神 经 网 络 层 和 一 个 乘法 操作 ， 如 图 

















到 1 之 间 的 数值 ， 描 述 每 个 部 分 有 多 少量 可 以 通过 。0 代 表 “ 不 许 任何 量 通过 ”，1 代 表 “ 人 允许 任意 量 通过 ” [2]。 





图 











3-6) ， 从 而 保证 长 期 记忆 能 保存 。 














3-7 所 示 。Sigmoid 





层 输 出 0 





图 3-6 RNN 之 LSTM 神 经 细胞 状态 传递 





图 3-7 RNN 之 门 结构 























由 于 LSTM 的 优异 表现 ， 它 成 为 了 RNN 的 事实 标准 ， 后 面 的 例子 如 果 没 有 特别 声明 ，RNN 的 实现 都 是 基于 LSTM。 





[1] http://www.jianshu.com/p/9dc9f41f0b29 


[2] http://www.sohu.com/a/110602675_157627 





3.2，” 单 向 循环 神经 网 络 结构 与 实现 

















在 TensorFlow 中 ，LSTM 被 封装 成 一 个 组 件 ， 使 








时 只 需 指定 节点 数 即 可 。 以 处 理 序列 长 度 为 100 的 二 分 类 问题 为 例 ， 处 理 流程 如 














3-8 所 示 。 


Em bedding LSTM 处 理 
处 理 为 128 维 核 数 128 个 





图 3-8 ”基于 TensorFlow 实 现 的 单 向 RNN 流 程 
对 应 的 具体 流程 依次 为 : 
1) 输入 张 量 为 长 度 100 的 序列 ， 经 过 Embedding， 即 嵌入 处 理 后 ， 转 换 成 128 维 张 量 。 
2) 节点 数 为 128 的 循环 神经 网 络 组 件 处 理 。 
3) 输入 节点 数 为 128， 隐 藏 节点 数 为 128， 输 出 节点 数 为 2 的 全 连接 处 理 。 


4) 产生 维度 为 2 的 张 量 ， 即 分 类 结果 。 





基于 TensorFlow 实 现 的 单 向 RNN 的 结构 如 图 3-9 所 示 。 














代码 实现 过 程 如 下 所 示 。 首 先 将 训练 数据 集 和 测试 数据 集 转换 成 长 度 为 100 的 序列 ， 不 足 100 的 使 用 0 填充 : 





trainx = pad sequences (trainX, maxlen=100, value=0.) 
testX = pad_ sequences (testXx, maxlen=100, value=0.) 





为 了 处 理 方便 ， 达 到 端 到 端的 训练 效果 ， 需 要 将 二 分 类 问题 的 结果 转换 成 二 维 张 量 : 





trainY = to_categorical (trainY，mnb classes=2) 
testY = to_categorical (testY，mnb_classes=2) 





定义 RNN 的 输入 端 ， 每 一 个 处 理 的 序列 长 度 为 100， 通 常 认为 要 处 理 的 序列 个 数 为 无 限 或 者 不 确定 ， 所 以 定义 input_data 的 第 一 个 参数 为 None， 每 个 序列 的 长 度 都 是 固定 的 100， 所 以 第 二 个 参数 为 
100: 





net = tflearn.input data([None, 100]) 








图 3-9 ”基于 TensorFlow 实 现 的 单 向 RNN 结 构 


定义 谋 入 模块 ， 输 出 的 维度 为 128， 这 里 input_dim 事 实 上 指 的 输入 参数 中 各 个 变量 的 最 大 值 ， 并 非 是 输入 的 维度 ， 填 写 一 个 较 大 的 数值 即 可 ， 比 如 10000: 





net = tflearn.embedding (net, input dim=10000, output dim=128) 





定义 LSTM 模 块 ， 核 数 为 128， 为 了 避免 过 拟 合 ， 需 要 使 用 dropout: 





net = tflearn.lstm(net, 128, dropout=0.8) 





定义 全 连接 层 ， 输 出 层 节点 数 为 2: 





net = tflearn.fully connected (net, 2, activation='softmax') 
net = tflearn.regression (net, optimizer='adam', learning rate=0.001, 
loss='categorical crossentropy') 





3.3 ”双向 循环 神经 网 络 结构 与 实现 





双向 循环 神经 网 络 的 基本 思想 是 ， 提 出 每 一 个 训练 序列 向 前 和 向 后 分 别 是 两 个 循环 神经 网 络 ， 而 且 这 两 个 都 连接 着 一 个 输出 层 。 这 个 结构 提供 给 输出 层 输 入 序列 中 每 一 个 点 的 完整 的 过 去 和 未 来 的 上 下 
文 信息 。 图 3-10 展 示 的 是 一 个 沿 着 时 间 展开 的 双向 循环 神经 网 络 。6 个 独特 的 权 值 在 每 一 个 时 步 被 重复 利用 ，6 个 权 值 分 别 对 应 的 是 : 输入 到 向 前 和 向 后 隐 含 层 (w1，w3) ， 隐 含 层 到 隐 含 层 自己 
(w2，w5) ， 向 前 和 向 后 隐 含 层 到 输出 层 (w4，w6) 。 值 得 注意 的 是 ， 向 前 和 向 后 隐 含 层 之 间 没 有 信息 流 ， 这 保证 了 展开 图 是 非 循环 的 [1]。 



































输出 层 


后 癌 隐 层 


前 问 隐 层 


输入 层 











3-10 在 时 间 上 展开 的 双向 循环 神经 网 络 








在 TensorFlow 中 ， 双 向 循环 神经 网 络 也 被 封装 成 一 个 组 件 ， 使 用 时 只 需 指定 节点 数 即 可 。 以 处 理 序列 长 度 为 200 的 二 分 类 问题 为 例 ， 处 理 流程 如 图 3-11 所 示 。 





Em bedding 双 回 LSTM 处 理 
处 理 为 128 维 核 数 128 x 2 个 






张 量 
Xx] 








图 3-11 基于 TensorFlow 实 现 的 双向 循环 神经 网 络 流程 








对 应 的 具体 流程 依次 为 : 

1) 输入 张 量 为 长 度 200 的 序列 ， 经 过 Embedding， 即 嵌入 处 理 后， 转换 成 128 维 张 量 。 
2) 两 个 核 数 均 为 128 的 循环 神经 网 络 组 件 处 理 。 

3) 输入 节点 为 128， 隐 藏 节点 为 128 核 ， 输 出 节点 为 2 的 全 连接 处 理 。 

4) 产生 维度 为 2 的 张 量 ， 即 分 类 结果 。 


基于 TensorFlow 实 现 的 双向 循环 神经 网 络 的 结构 如 图 3-12 所 示 。 

















代码 实现 过 程 如 下 所 示 。 首 先 将 训练 数据 集 和 测试 数据 集 转换 成 长 度 为 200 的 序列 ， 不 足 200 的 使 用 0 填充 : 








trainX = pad_ sequences (trainX, maxlen=200, value=0.) 
testX = pad_ sequences (testX, maxlen=200, value=0.) 





为 了 处 理 方便 ， 达 到 端 到 端的 训练 效果 ， 需 要 将 二 分 类 问题 的 结果 转换 成 二 维 张 量 : 





trainY = to_categorical (trainY，mnb classes=2) 
testY = to _categorical (test¥Y, nb _ classes=2) 





定义 输入 端 ， 每 一 个 处 理 的 序列 长 度 为 200， 通 常 认为 要 处 理 的 序列 个 数 为 无 限 或 者 不 确定 ， 所 以 定义 input_data 的 第 一 个 参数 为 None， 每 个 序列 的 长 度 都 是 固定 的 200， 所 以 第 二 个 参数 为 200: 





net = tflearn.input data([None, 200]) 





定义 嵌入 模块 ， 输 出 的 维度 为 128， 这 里 input_dim 事 实 上 指 的 输入 参数 中 各 个 变量 的 最 大 值 ， 并 非 是 输入 的 维度 ， 填 写 一 个 较 大 的 数值 即 可 ， 比 如 10000: 





net = tflearn.embedding (net, input dim=10000, output dim=128) 





定义 双向 循环 神经 网 络 模块 ， 使 用 2 个 核 数 为 128 的 LSTM ， 为 了 避免 过 拟 合 ， 需 要 使 用 dropout: 





图 3-12 基于 TensorFlow 实 现 的 双向 循环 神经 网 络 结构 


定义 全 连接 层 ， 输 出 层 节点 数 为 2: 





net = tflearn.fully connected (net, 2, activation="'softmax') 
net = tflearn.regression (net, optimizer='adam', learning rate=0.001, 
loss='categorical crossentropy') 





[1] http://blog.csdn.net/jojozhangju/article/details/51982254 


3.4 “循环 神经 网 络 在 序列 分 类 的 应 用 





分 类 问题 是 各 类 机 器 学 习 算法 基本 都 会 面 对 的 问题 ， 循 环 神经 网 络 算法 也 是 如 此 ， 其 基本 过 程 是 通过 分 析 一 段 输 入 序列 ， 通 过 LSTM 分 析 判 断 得 到 对 应 的 分 类 结果 ， 如 图 3-13 所 示 。 


输出 分 类 结果 


输入 序列 





图 3-13 RNN 序 列 分 类 示意 图 


以 LSTM 分 析 IMDB 数 据 集 的 负面 评论 为 例 ， 处 理 流程 如 图 3-14 所 示 。 
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图 3-14 ”使 用 RNN 对 IMDB 数 据 进行 分 类 







训练 集 





RNN 对 IMDB 处 理 的 代码 实现 ， 请 参考 本 书 第 7 章 的 相关 内 容 。 








3.5 ”循环 神经 网 络 在 序列 生成 的 应 用 

















序列 生成 是 RNN 非 常 有 意思 的 一 类 应 用 ， 机 器 学 习 专家 通过 使 用 RNN 学 习 大 量 Java 源 码 和 Linux 内 核 源 码 ， 生 成 的 Java 代 码 和 Linux 内 核 源码 几乎 都 可 以 编译 通过 ， 如 图 3-15 所 示 。 
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LSTM 
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图 3-15 RNN 序 列 生成 示意 图 














最 典型 的 一 个 例子 是 让 RNN 学 习 莎 士 比 亚 的 剧本 ， 然 后 自动 生成 一 段 话 。 人 们 发 现 生成 的 内 容 不 仅 符合 英语 语法 ， 而 且 具 有 明显 的 沙 翁 风 格 。 序 列 生成 中 使 用 最 多 的 是 char RNN 模 型 。 所 谓 的 char 
RNN 模 型 ， 就 是 以 字符 为 最 小 的 单元 ， 把 每 个 字符 当做 一 个 输入 ， 这 样 一 个 单词 、 一 句 话 甚至 一 篇 文章 都 可 以 看 成 由 字符 组 成 的 一 个 序列 ， 通 常 这 样 的 字符 集合 会 包括 字母 、 数 字 和 常用 标点 。RNN 本 质 上 
只 能 理解 数字 序列 ， 所 以 需要 建立 一 个 映射 关系 ， 把 字符 映射 成 数字 ， 这 映射 关系 称 为 char-idx。 图 3-16 演 示 的 就 是 一 个 非常 简单 的 场景 ， 输 入 序列 为 “hell”， 通 过 RNN 计 算 ， 生 成 的 序列 为 “ello” ,也 
可 以 理解 为 当 输 入 “hell” 后 ，RNN 预 测 了 下 一 个 字符 为 0， 即 RNN 具 备 预测 单词 “hello” 的 能 力 。 






































e” 


target chars: O” 


output layer 


hidden layer 






input layer 


input chars: “h” “e” 汪汪 i 
图 3-16 ”char RNN 模 型 示意 图 


3.6 ”循环 神经 网 络 在 序列 标记 的 应 用 


自然 语言 分 析 技术 大 致 分 为 3 个 层面 : 词法 分 析 、 句 法 分 析 和 语义 分 析 。 语 义 角色 标注 (Semantic Role Labeling，SRL) 是 实现 浅 层 语 义 分 析 的 一 种 方式 。 在 一 个 句子 中 ， 谓 词 是 对 主语 的 陈述 或 说 
明 , 指出 “做 什么 。“ 是 什么 ”或 “怎么 样 ”， 代 表 了 一 个 事件 的 核心 。 跟 谓词 搭配 的 名 词 称 为 论 元 。 语 义 角色 标注 以 句子 的 谓词 为 中 心 ， 不 对 句子 所 包含 的 语义 信息 进行 深入 分 析 ， 只 分 析 句 子 中 各 成 分 
与 谓词 之 间 的 关系 ， 并 用 语义 角色 来 描述 这 些 结构 关系 ， 是 许多 自然 语言 理解 任务 (如 信息 抽取 、 篇 章 分 析 、 深 度 问答 等 ) 的 一 个 重要 中 间 步 又。 在 研究 中 一 般 都 假定 谓词 是 给 定 的 ， 所 要 做 的 就 是 找 出 给 
定 谓词 的 各 个 论 元 和 它们 的 语义 角色 。 





循环 神经 网 络 是 一 种 对 序列 建 模 的 重要 模型 ， 在 自然 语言 处 理 任务 中 有 着 广泛 地 应 用 ， 它 能 够 处 理 输入 之 间 前 后 关联 的 问题 ， 学 习 长 序列 中 蕴含 的 长 程 依赖 关系 。 使 用 神经 网 络 模型 解决 问题 的 思路 通 
常 是 ， 前 层 网 络 学 习 输入 的 特征 表示 ， 网 络 的 最 后 一 层 在 特征 基础 上 完成 最 终 的 任务 ， 如 图 3-17 所 示 。 





输出 序列 标记 


LSTM™ 


输入 序列 





图 3-17 RNN 序 列 标记 示意 图 


在 SRL 任 务 中 ， 深 层 LSTM 网 络 学 习 输入 的 特征 表示 ， 条 件 随机 场 (Conditional Random Filed，CRF) 在 特征 的 基础 上 完成 序列 标注 ， 处 于 整个 网 络 的 未 端 。CRF 是 一 种 概率 化 结构 模型 ， 可 以 看 做 是 
一 个 概率 无 向 图 模型 ， 节 点 表示 随机 变量 ， 边 表示 随机 变量 之 间 的 概率 依赖 关系 [1]。 


基于 深层 双向 LSTM 模 型 的 语义 标注 过 程 如 图 3-18 所 示 。 








1) 构造 输入 。 输 入 1 是 论 元 序列 ;输入 2 是 谓词 序列 ;输入 3 是 谓词 上 下 文 ， 从 句子 中 抽取 这 个 谓词 前 后 各 n 个 词 ， 构 成 谓词 上 下 文 ， 用 one-hot 方 式 表示 ; 输入 4 是 谓词 上 下 文 区 域 标记 ， 标 记 了 句子 中 
每 一 个 词 是 否 在 谓词 上 下 文中 。 将 输入 2 ~ 3 均 扩展 为 和 输入 1 一 样 长 的 序列 。 








2) 输入 1 ~ 4 均 通过 词 表 取 词 向 量 转换 为 实 向 量 表示 的 词 向 量 序列 。 其 中 ， 输 入 1、3 共 享 同 一 个 词 表 ; 输入 2 和 4 各 自 独 有 词 表 。 

















3) 第 2) 步 的 4 个 词 向 量 序列 作为 双向 LSTM 模 型 的 输入 ; LSTM 模 型 学 习 输 入 序列 的 特征 表示 ， 得 到 新 的 特性 表示 序列 。 


4) CRF 以 第 3) 步 中 LSTM 学 习 到 的 特征 为 输入 ， 以 标记 序列 为 监督 信号 ， 完 成 序列 标注 。 


CRF(Output) 


谓词 EF 文 谓词 上 下 文 区 域 标记 





图 3-18 ”用 于 语义 标注 的 深层 双向 LSTM 模 型 
[1] http://book.paddlepaddle.org/index.cn.html 


3.7 ”循环 神经 网 络 在 序列 翻译 的 应 用 




















序列 翻译 又 称 Seq2Seq (Sequence to Sequence， 序 列 到 序列 ) ， 本 质 上 是 LSTM 将 输入 序列 转化 成 另外 一 个 序列 。 最 典型 的 应 用 就 是 机 器 翻译 ， 如 图 3-19 所 示 。 








机 器 翻译 是 用 计算 机 来 实现 不 同 语言 之 间 翻 译 的 技术 。 被 翻译 的 语言 通常 称 为 源 语 言 ， 翻 译 成 的 结果 语言 称 为 目标 语言 。 机 器 翻译 即 实现 从 源 语言 到 目标 语言 转换 的 过 程 ， 是 自然 语言 处 理 的 重要 研究 
领域 之 一 。 早 期 机 器 翻译 系统 多 为 基于 规则 的 翻译 系统 ， 需 要 由 语言 学 家 编写 两 种 语言 之 间 的 转换 规则 ， 再 将 这 些 规则 录入 计算 机 。 该 方法 对 语言 学 家 的 要 求 非常 高 ， 而 且 我 们 几乎 无 法 总 结 一 种 语言 会 
到 的 所 有 规则 ， 更 何况 两 种 甚至 更 多 的 语言 。 因 此 ， 传 统 机 器 翻译 方法 面临 的 主要 挑战 是 无 法 得 到 一 个 完备 的 规则 集合 。 



































输出 序列 翻译 


LSTM 





输入 序列 





图 3-19 RNN 序 列 翻译 示意 图 


为 解决 以 上 问题 ， 统 计 机 器 翻译 (Statistical Machine Translation，SMT) 技术 应 运 而 生 。 在 统计 机 器 翻译 技术 中 ， 转 化 规则 是 由 机 器 自动 从 大 规模 的 语 料 中 学 习 得 到 的 ， 而 非 我 们 主动 提供 规则 。 因 
， 它 克服 了 基于 规则 的 翻译 系统 所 面临 的 知识 获取 瓶颈 的 问题 ， 但 仍然 存在 许多 挑战 : 





1) 人 为 设计 许多 特征 ， 但 永远 无 法 覆盖 所 有 的 语言 现象 。 
2) 难以 利用 全 局 的 特征 。 
3) 依赖 于 许多 预 处 理 环节 ， 如 词语 对 齐 、 分 词 或 符号 化 、 规 则 抽取 、 名 法 分 析 等 ， 而 每 个 环节 的 错误 会 逐步 累积 ， 对 翻译 的 影响 也 越 来 越 大 。 


近年 来 ， 深 度 学 习 技术 的 发 展 为 解决 上 述 挑战 提供 了 新 的 思路 。 将 深度 学 习 应 用 于 机 器 翻译 任务 的 方法 大 致 分 为 两 类 ( 见 图 3-20) : 





统计 机 货 翻 译 


神经 网 络 





图 3-20 ”基于 神经 网 络 的 机 器 翻译 系统 


“ 仍 以 统计 机 器 翻译 系统 为 框架 ， 只 是 利用 神经 网 络 来 改进 其 中 的 关键 模块 ， 如 语言 模型 、 调 序 模型 等 。 


“ 不 再 以 统计 机 器 翻译 系统 为 框架 ， 而 是 直接 用 神经 网 络 将 源 语言 映射 到 目标 语言 ， 即 端 到 端的 神经 网 络 机 器 翻译 (End-to-End Neural Machine Translation，End-to-End NMT) ， 简 称 为 NMT 模 型 。 








编码 器 -解码 器 框架 如 图 3-21 所 示 ， 用 于 解决 由 一 个 任意 长 度 的 源 序列 到 另 一 个 任意 长 度 的 目标 序列 的 变换 问题 。 即 在 编码 阶段 将 整个 源 序列 编码 成 一 个 向 量 ， 在 解码 阶段 通过 最 大 化 预测 序列 概率 ， 从 
中 解码 出 整个 目标 序列 。 编 码 和 解码 的 过 程 通 常 都 使 用 RNN 来 实现 机 器 翻译 的 NMT 模 型 。 
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图 3-21 编码 器 -解码 器 框架 


3.8 本章 小 结 




















本 章 介 绍 循环 神经 网 络 的 基本 概念 以 及 其 主要 实现 形式 和 应 用 场景 ， 包 括 序列 分 类 、 序 列 生成 、 序 列 标记 以 及 序列 翻译 ， 并 介绍 了 在 TensorFlow 环 境 下 的 代码 实现 。 在 安全 领域 遇 到 最 多 的 是 分 类 问 
题 ， 所 以 本 章 重点 介绍 了 如 何 使 用 RNN 进 行 分 类 。 























第 4 章 ”基于 OpenSOC 的 机 器 学 习 框 架 


机 器 学 习 算法 和 训练 数据 是 我 们 解决 数据 挖掘 问题 的 基础 ， 真 正 让 数据 挖掘 落地 还 需要 依赖 工程 化 框架 。OpenSO(C 是 思科 公司 2014 年 在 BroCon 大 会 上 公布 的 开源 项 目 ， 但 是 没有 真正 开源 其 源 代码 ， 
只 是 发 布 了 其 技术 框架 。OpenSO< 的 部 署 全 部 依靠 开源 软件 ， 存 储 上 使 用 的 Hadoop， 实 时 索引 采用 Elasticsearch ， 而 在 线 实时 分 析 使 用 的 Storm， 因 此 ， 可 以 说 OpenSOC 是 各 种 开源 大 数据 架构 和 安全 
分 析 工具 的 有 机 结合 [1 。 


































































































本 章 主 要 以 OpenSOC 为 框架 介绍 常见 的 开源 大 数据 框架 ， 涉 及 数据 源 系 统 、 数 据 收集 层 、 消 息 系统 层 、 实 时 处 理 层 、 存 储 层 、 分 析 处 理 层 ， 具 体 实现 使 用 的 Storm、Spark、Hadoop、Kafka 等 开源 
组 件 以 及 基于 机 器 学 习 工程 化 非常 重要 的 计算 基础 CPU、GPU 和 TPU。 








[1] http://blog.chinaunix.net/uid-26275986-id-4964935.html 


4.1 OpenSOC 框 架 


OpenSOC 主 要 由 数据 源 系 统 、 数 据 收集 层 、 消 息 系统 层 、 实 时 处 理 层 、 存 储 层 、 分 析 处 理 层 组 成 ， 系 统 架构 如 图 4-1 所 示 。 








图 4-1 OpenSOC 系 统 框架 


从 数据 处 理 的 角度 讲 ，OpenSOC 的 数据 源 可 以 包括 原始 的 网 络 流量 、Netflow、Syslog 等 ， 结 合 外 部 的 威胁 情报 ， 通 过 离线 以 及 在 线 的 分 析 挖掘 ， 识 别 各 种 安全 问题 ， 如 图 4-2 所 示 。 目 前 OpenSOC 
已 经 加 入 Apache 工 程 改名 为 Apache Metron[1]， 不 过 系统 架构 层面 上 的 变化 不 大 ， 所 以 本 章 仍 从 OpenSOC 的 角度 进行 介绍 。 


OpenSOC 主 要 功能 包括 加: 

“ 可 扩展 的 接收 器 和 分 析 器 ， 能 够 监视 常见 数据 源 。 

“ 支持 对 数据 流 的 异常 检测 和 基于 规则 实时 告警 。 

“ 支持 使 用 Elasticsearch 实 现 自动 化 实时 索引 数据 流 。 

' 支持 使 用 Hive， 利 用 SQL 查询 存储 在 Hadoop 中 的 数据 。 
: 能 够 兼容 ODBC/JDBC 和 继承 已 有 的 分 析 工 具 。 

“ 具有 丰富 的 分 析 应 用 且 能 够 集成 已 有 的 分 析 工具 。 

: 支持 自动 生成 报告 和 异常 报警 。 


: 支持 原始 网 络 数据 包 的 抓 取 、 存 储 、 重 组 。 





下 面 几 节 分 别 介绍 这 个 框架 的 重要 组 成 部 分 。 
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Enrichment Data 


图 4-2 OpenSOC 的 数据 处 理 
[1] http://metron.apache.org/ 


[2] https://www.oschina.net/p/opensoc 


4.2 数据 源 系 统 








数据 源 系统 指 的 是 数据 分 析 时 使 用 的 数据 ， 也 可 以 理解 为 系统 支持 的 数据 格式 。 常 见 的 数据 源 包括 网 络 流量 、 文 件 、Syslog、SNMP 和 数据 库 等 。 














1. 网 络 流量 


网 络 流量 是 最 常见 的 数据 源 之 一 ， 主 要 分 为 网 络 全 流量 和 Netflow 两 种 。 





网 络 全 流量 包含 完整 的 网 络 数据 ， 包 含 TCP/IP 协 议 栈 的 数据 ( 见 图 4-3) ， 比 如 MAC 头 、IP 头 、TCP 头 、HTTP 头 以 及 HTTP 载 荷 数据 ， 对 于 分 析 网 络 中 的 攻击 行为 帮助 非常 大 。 





TCP/IP Protocol Stack OSI Model 
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Physical 


图 4-3 TCP/IP 协 议 栈 


Network 
Access 


常见 的 网 络 全 流量 获取 方式 为 交换 机 镜像 、 分 光 镜 和 网 络 分 流 器 3 种 。 














交换 机 镜像 是 成 本 低廉 、 操 作 简单 的 方法 ， 普 遍 应 用 于 网 络 排 障 、 简 单 流量 分 析 与 监控 。 交 换 机 镜像 网 络 拓扑 见 图 4-4。 


OA 出 口 防火 墙 


























图 4-4 基于 交换 机 镜像 的 网 络 拓扑 











以 思科 交换 机 为 例 ， 假 设 交换 机 的 上 行 口 是 fastethernet4/10， 要 求 把 上 行 口 的 进出 流量 镜像 到 fastethernet4/15: 























monitor session 1 source interface fastethernet 4/10 both 
monitor session 1 destination interface fastethernet 4/15 

















以 华为 交换 机 为 例 ， 假 设 交换 机 的 上 行 口 是 ethernet3/0/2， 要 求 把 上 行 口 的 进出 流量 镜像 到 ethernet3/0/1: 


























observing-port ethernet3/0/1 
port-mirroring ethernet3/0/2 both ethernet3/0/1 























分 光 器 是 广泛 使 用 的 流量 复制 手段 。 分 光 器 的 基本 原理 是 ， 通 过 精密 的 光纤 生产 工艺 从 物理 层面 将 一 束 光 分 成 两 束 ， 从 而 达到 流量 复制 的 目的 。 
































分 光 器 成 本 低廉 ， 并 且 特 性 稳定 ， 是 大 型 网 络 中 流量 复制 的 首选 方案 。 但 是 也 有 其 局 限 性 ， 比 如 当 光 衰 过 大 时 无 法 使 用 。 另 外 ， 如 果 网 络 中 存在 一 定 的 电 口 链 路 ， 也 是 无 法 使 用 分 光 器 进行 流量 复制 
的 。 这 个 时 候 就 需要 使 用 专用 的 流量 复制 设备 一 一 网 络 分 流 器 (Network Tap) 【1]。 













































































Netflow 提 供 网 络 流量 的 会 话 级 视图 ， 记 录 每 个 TCP/IP 事 务 的 信息 。 也 许 它 不 能 像 全 流量 镜像 那样 提供 网 络 流量 的 完整 记录 ， 但 是 当 汇 集 起 来 时 ， 它 更 加 易于 管理 和 | 阅读。 

































































NetFlow 流 量 统计 数据 不 同 版 本 具有 一 定 的 差别 ， 常 见 的 版 本 包括 数据 流 时 戳 、 源 |P 地 址 和 目的 IP 地 址 、 源 端口 号 和 目的 端口 号 、 输 入 接口 号 和 输出 接口 号 、 下 一 跳 IP 地 址 、 信 息 流 中 的 总 字 节 数 和 信 
息 流 中 的 数据 包 数 量 。 


2. 文 件 

















文件 是 数据 最 基本 的 保存 形式 ， 常 见 的 有 CSV、XML、JSON、 电 子 表格 以 及 各 类 日 志文 件 ， 比 如 Linux 的 系统 日 志 、Apache 的 访问 日 志 等 。 





3.Syslog 











Syslog 是 在 一 个 网 络 中 转发 系统 日 志 信息 的 标准 ， 它 是 由 美国 加 州 大 学 伯克利 软件 分 布 研究 中 心 开发 的 ， 目 前 已 成 为 工业 标准 协议 ， 可 用 它 记 录 设备 的 日 志 。Syslog 记 录 系统 中 的 任何 事件 ， 管 理 员 可 
以 通过 查看 系统 记录 随时 掌握 系统 状况 。 系 统 日 志 通 过 Syslog 进 程 记录 系统 的 有 关 事 件 ， 也 可 以 记录 应 用 程序 运作 事件 。 通 过 适当 配置 ， 还 可 以 实现 运行 Syslog 协 议 的 机 器 之 间 的 通信 。 通 过 分 析 这 些 网 络 
行为 日 志 ， 可 追踪 和 掌握 与 设备 和 网 络 有 关 的 情况 。 






























































Syslog 协 议 属 于 一 种 主 从 式 协议 ， 发 送 端 会 传送 出 一 个 小 的 文字 讯息 (小 于 1024 字 节 ) 到 Syslog 接 收 端 。 常 见 的 网 络 设备 、 安 全 设备 以 及 发 行 版 的 Linux 系 统 都 默认 支持 把 日 志 以 Syslog 形 式 发 送出 
来 。 


以 常见 的 Linux 发 行 版 为 例 ，Syslog 的 配置 文件 位 于 如 下 路 径 : 





/etc/syslog.conf 





通过 在 最 后 一 行 增加 下 列 配置 即 可 把 Syslog 发 送 给 远 端 的 Syslog 服 务 器 : 





.168 ,0.2 








以 思科 路 由 器 为 例 ，Syslog 的 具体 配置 方法 如 下 [9: 





device#conf 七 

device (config)#1ogging on 

device (config)#1logging 192.168.0.2 

device (config)#1ogging trap critical 

device (config)#1ogging source-interface f0/1 

device (config)#service timestamps 1og datetime localtime 
device#sh logging 

device#copy runningconfigure startingconfigure 




















以 Netscreen 防 火 墙 为 例 ，Syslog 的 具体 配置 方法 如 下 : 














set syslog config 192.168.0.2 local4 local4 

set syslog traffic 

set syslog enable 

set log module system level critical destination syslog 
save 





4.SNMP 





SNMP 是 基于 TCP/IP 协 议 族 的 网 络 管理 标准 ， 是 一 种 在 网 络 中 管理 网 络 节点 (如 服务 器 、 工 作 站 、 路 由 器 、 交 换 机 等 ) 的 标准 协议 。SNMP 能 够 使 网 络 管理 员 提高 网 络 管理 效能 ， 及 时 发 现 并 解决 网 络 
问题 以 及 规划 网 络 的 增长 。 网 络 管理 员 还 可 以 通过 SNMP 接 收 网 络 节点 的 通知 消息 以 及 告警 事件 报告 等 来 获知 网 络 出 现 的 问题 。 














SNMP 管 理 的 网 络 主要 由 3 部 分 组 成 ( 见 图 4-5) : 











“ 被 管理 的 设备 ; 


“ SNMP 代 理 ; 


“ 网络 管理 系统 (NMS) 。 


网 络 管理 系统 
(NMS ) 





被 管理 设备 被 管理 设备 





图 4-5 SNMP 原 理 




















被 管理 设备 


网 络 中 每 一 个 被 管理 的 设备 都 存在 一 个 管理 信息 库 (MIB) ， 用 于 收集 并 储存 管理 信息 。 通 过 SNMP 协 议 ，NM SS 能 获取 这 些 信息 。 被 管理 设备 又 称 为 网 络 单元 或 网 络 节点 ， 可 以 是 支持 SNMP 协 议 的 路 
由 器 、 交 换 机 、 服 务 器 或 者 主机 等 。SNMP 代 理 是 被 管理 设备 上 的 一 个 网 络 管理 软件 模块 ， 拥 有 本 地 设备 的 相关 管理 信息 ， 并 可 以 将 它们 转换 成 与 SN MP 兼容 的 格式 ， 传 递 给 NMS。NMSs 运 行 应 用 程序 来 














实现 监控 被 管理 设备 的 功能 。 另 外 ，NMS 还 为 网 络 管理 提供 大 量 的 处 理 程序 及 必需 的 储存 资源 1。 


常见 的 网 络 设备 都 支持 把 日 志和 报警 以 SNMP 的 形式 发 送出 来 ， 通 常 把 主动 发 送 SNMP 称 为 SNMP trap。 





























以 思科 路 由 器 为 例 ，SNMP trap 的 具体 配置 方法 如 下 : 








snmp-agent community read public 

snmp-agent community write private 

snmp-agent trap enable 

snmp-agent target-host trap address udp-domain 192.168.0.2 udp-port 5000 params securityname public 























以 Netscreen 防 火 墙 为 例 ，Syslog 的 具体 配置 方法 如 下 办: 














set snmp community "public" Read-Write Trap-on Version any 
set snmp host "public" 192.168.0.2 255.255.255.255 trap v2 
set interface ethernet1 manage snmp 





5 数据 库 





当 数 据 保存 在 数据 库 中 ， 并 且 时 刻 可 能 发 生变 化 ， 这 时 就 需要 定时 甚至 实时 从 数据 库 中 同步 数据 ， 通 常 基 于 JDBC (Java DataBase Connectivity) 来 完成 这 些 任务 。JDBC 是 一 种 用 于 执行 SQL 语句 的 
Java APl， 可 以 为 多 种 关系 数据 库 提供 统一 访问 ， 它 由 一 组 用 Java 语 言 编写 的 类 和 接口 组 成 ， 如 图 4-6 所 示 。JDBC 提 供 了 一 种 基准 ， 据 此 可 以 构建 更 高 级 的 工具 和 接口 ， 使 数据 库 开 发 人 员 能 够 编写 数据 库 




































































Informix 数 据 库 又 编写 另 一 个 程序 等 等 。 程 序 员 只 需 用 JDBC API 写 一 个 程序 就 够 了 ， 它 可 向 相应 数据 库 发 送 SQL 调 





5]。 

















6. 肛 虫 











当 数 据 保存 在 第 三 方 业务 系统 ， 数 据 时 刻 可 能 发 生变 化 并 且 无 法 直接 访问 其 数据 库 时 ， 可 以 使 用 息 虫 通过 访问 AP| 或 者 直接 




































































应 用 程序 。 有 了 JDBC， 向 各 种 关系 数据 发 送 SQL 语 句 就 是 一 件 很 容易 的 事 。 换 言 之 ， 有 了 JDBC API1， 就 不 必 为 访问 Sybase 数据 库 专门 写 一 个 程序 ， 为 访问 Oracle 数 据 库 又 专门 写 一 个 程序 ， 或 为 访问 


取 网 页 、 文 件 的 方式 进行 数据 获取 。 比 如 对 员工 邮箱 异地 登录 进行 检测 时 ， 

















为 了 排除 员工 出 差 或 者 出 外 勤 带 来 的 误 报 ， 需 要 从 ERP 中 定时 同步 员工 的 差 旅 情况 以 及 门禁 系统 中 员工 的 打卡 情况 ， 这 就 需要 使 











怜 虫 从 ERP 和 门禁 系统 的 API 中 疏 取 数据 。 





图 4-6 JDBC 架 构 


[1] https://secutity.tencent.com/index.php/blog/msg/33 
[2] http://xiaoxia.blog.51cto.com/23357/392230 


] 
] 
[3] http:/Vfreeloda.blog.51cto.com/2033581/1306743/ 
[4] http://441970.blog.51cto.com/431970/999707 

] 


[5] http://www.cnblogs.com/jianshu/p/6023098.html 


4.3 ”数据 收集 层 


数据 收集 层 主要 收集 以 及 初步 处 理 获 取 的 数据 ， 转 换 成 指定 的 格式 。 数 据 收集 层 常 用 软件 包括 Logstash 和 Flume， 针 对 网 络 全 流量 收集 还 有 Bro。 其 中 Logstash 和 Flume 功 能 完全 一 样 ， 选 择 一 个 即 
可 ， 本 章 仅 介绍 Logstash。 


1.Logstash 


Logstash 是 一 款 强大 的 数据 处 理工 具 ， 它 可 以 实现 数据 传输 、 格 式 处 理 、 格 式 化 输出 还 有 强大 的 插件 功能 ， 常 用 于 日 志 处 理 ["]。 





Logstash 主 要 由 3 部 分 组 成 ， 包 括 Inputs、Filters 和 Outputs， 如 图 4-7 所 示 。 





Data Source Elasticsearch 
图 4-7 Logstash 系 统 组 成 
Inputs 为 数据 输入 端 ， 支 持 的 数据 形式 众多 ， 常 见 的 列举 如 下 : 
“ CloudWatch， 支 持 从 Amazon Web Services CloudWatch API 抓 取 数 据 。 
“Eventlog， 支 持 从 Window 系 统 读 取 eventlog。 
“ File， 支 持 读 取 文 件 。 
. JDBC， 支 持 从 数据 库 读 取 数 据 。 
“Syslog， 支 持 以 Syslog 形 式 接收 数据 。 
完整 支持 列表 请 参考 Logstash 相 关 文档 中。 


Filters 为 数据 中 转 层 ， 主 要 进行 格式 处 理 ， 数 据 类 型 转换 、 数 据 过 滤 、 字 段 添加 、 修 改 等 ， 最 常用 的 过 滤器 为 Grok，Grok 通 过 正则 解析 和 结构 化 任何 文本 ，Logstash 内 置 了 120 个 匹配 模式 ， 满 足 大 部 


需求 。 
Outputs 是 Logstash 工 作 的 最 后 一 个 阶段 ， 负 责 将 数据 输出 到 指定 位 置 ， 常 见 的 输出 列举 如 下 : 
“ Elasticsearch: ， 发 送 事件 数据 到 Elasticseartch。 
“ File， 将 事件 数据 写 入 到 磁盘 文件 上 。 
Kafka， 将 事件 数据 写 入 Kafka。 
完整 支持 列表 请 参考 Logstash 相 关 文档 。 


Lostash 的 下 载 地 址 为 : 





https://www.elastic.co/downloads/Logstash 
wget https://artifacts.elastic.co/downloads/Logstash/Logstash-5.4.3.tar.gz 





截止 写作 本 书 时 ，Lostash 的 最 新 版 本 为 5.4.3。 











Logstash 的 配置 文件 可 以 手工 指定 ， 一 般 使 用 Logstash.conf。 








运行 Logstash 的 方式 为 : 





bin/Logstash -f Logstash.conf 











以 读 取 Linux 系 统 日 志 为 例 ， 配 置 如 下 : 














input { 
file { 
path => ["/var/log/*.log", "/var/log/message"] 
type => "system" 
start position => "beginning" 


E 








其 中 ，path 表 示 读 取 的 路 径 或 者 文件 ，start_position 表 示 每 次 都 是 从 头 读 取 还 是 从 最 新 的 读 取 。 


以 读 取 Kafka 为 例 ， 配 置 如 下 : 


input { 
Kafka { 





topic id => "test" 

reset beginning => false 
consumer threads => 5 
decorate events => true 








其 中 ，zk_connect 表 示 ZooKeeper 的 地 址 ; topic_ id 表示 读 取 的 topic。 


以 写 HDFS 为 例 ， 配 置 如 下 : 





output { 
hadoop webhdfs { 

workers => 2 
server => "localhost:14000" 
user => " Logstash " 
path => "/user/Logstash/dt=%{+Y}-%{+M}-%{+d}/Logstash-%{+H} .10g" 
flush size => 500 
compress => "snappy" 
idle flush time => 10 
retry interval => 0.5 J} 





其 中 ，server 表 示 HDFS 的 地 址 ;path 为 对 应 的 HDFS 路 径 。 


以 写 Elasticsearch 为 例 ， 配 置 如 下 : 





output { 
elasticsearch { 

host => " localhost " 
protocol => "http" 
index => "Logstash-%{type}-%{+YYYY.MM.dd}" 
index type => "%{type}" 
workers => 5 
template overwrite => true } 





其 中 ，host 表 示 Elasticsearch 的 地 址 ; index 为 对 应 的 Elasticsearch 索 引 。 


2.Bro 























Bro 是 一 款 被 动 的 开源 流量 分 析 器 ， 主 要 用 于 对 链 路 上 所 有 深层 次 的 可 疑 行 为 流量 进行 安全 监控 ， 为 网 络 流量 分 析 提供 了 一 个 综合 平台 ， 特 别 侧重 于 语义 安全 监控 。 虽 然 经 常 将 它 与 传统 入 侵 检测 /预防 
系统 进行 比较 ， 但 Bro 采 用 了 完全 不 同 的 方法 ， 为 用 户 提供 了 一 个 灵活 的 框架 ， 可 以 定制 工具 ， 深 入 的 监控 远 远 超出 传统 系统 的 功能 。Bro 的 目标 在 于 搜寻 攻击 活动 并 提供 其 背景 信息 与 使 用 模式 。 它 能 够 将 
网 络 中 的 各 设备 整理 为 可 视 化 图 形 ， 深 入 网 络 流量 当中 并 检查 网 络 数 据 包 B]。 在 机 器 学 习 框架 中 ，Bro 负 责 分 析 网 络 全 流量 镜像 ， 还 原 网 络 协议 ， 通 过 Kafka 插 件 ， 将 数据 发 送 给 Kafka 集 群 。 















































































































































Bro 的 主页 地 址 如 下 ， 截 止 写作 本 书 时 Bro 最 新 版 本 为 2.5.1: 


https://www.bro.org/ 





Bro 的 安装 相对 复杂 些 ， 需 要 安装 依赖 的 其 他 开源 组 件 。 


安装 pf_ring: 





tar xvzf PF RING-6.2.0.tar.gz 

cd PF RING-6.2.0/userland/lib 

./configure --prefix=/opt/pfring 

make install 

cd http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../1libpcap 
./configure -~-prefix=/opt/pfring 

make install 





安装 tcpdump: 





cd http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../tcpdump-4.1.1 

./configure --prefix=/opt/pfring 

make install 

cd http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../http://www.hzcourse.com/resource/readBook?path=/openresources/teac 
make 

make install 





安装 pf_ring 内 核 模块 : 





insmod pf ring.ko transparent mode=2 min num slots=65534 
modprobe pf ring enable tx capture=0 min num slots=32768 





安装 Bro: 





yum install cmake make gcc gcc-c++ flex bison libpcap-devel openssl-devel python-devel swig zlib-devel 
./configure --prefix=/opt/bro --with-pcap=/opt/pfring 

make -j4 

make install 





安装 Kafka 插 件 : 





cd librdKafka-0.8.6/ 

./configure --prefix=/opt/librd 

make 

make install 

cd bro-plugins/ 

cd Kafka/ 

./configure --bro-dist=/opt/bro --with-librdKafka=/opt/librd 
make 

make install 























Bro 的 主要 配置 文件 为 node.cfg， 以 单机 版 为 例 ， 假 设 需要 监听 eth2， 分 配 16 个 核 给 pfring 使 用 ， 配 置 如 下 : 














type=worker 

host=127.0.0.1 

前 定 监听 的 网 卡 

interface=eth2 

lb method=pf ring 

本 cP 机 下 一 

lb procs=16 

# 指 定 CPU 核 编号 

pin cpus=1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16 


井 





[1] http://tchuairen.blog.51cto.com/3848118/1840596/ 


[2] https:/ /www.elastic.co/ guide/en/Logstash/current/input-plugins.html 





D] http://www.freebuf.com/articles/system/135843.html 


4.4 ”消息 系统 层 











消息 系统 是 整个 机 器 学 习 框 架 的 信息 高 速 公 路 ， 数 据 的 进出 都 依赖 于 它 。 最 常 使 用 的 消息 系统 是 Kafka。 








Kafka 是 一 种 高 吞吐 量 的 分 布 式 发 布 、 订 阅 消息 系统 ， 有 如 下 特性 : 


“ 通过 O (1) 的 磁盘 数据 结构 提供 消息 的 持久 化 ， 这 种 结构 对 于 即使 数 以 TB 的 消息 存储 来 说 ， 也 能 够 保持 长 时 间 的 稳 





“ 高 吞吐 量 ， 即 使 是 非常 普通 的 硬件 也 可 以 支持 每 秒 数 百 万 的 消息 。 

“ 支持 通过 Kafka 服 务 器 和 消费 机 集群 来 分 区 消息 [1。 

Kafka 系 统 由 以 下 几 部 分 组 成 : 

“Broker，Kafka 集 群 包含 一 个 或 多 个 服务 器 ， 这 种 服务 器 被 称 为 Broker。 


.Topic， 每 条 发 布 到 Kafka 集 群 的 消息 都 有 一 个 类 别 ， 这 个 类 别 被 称 为 Topic。 物 理 上 不 同 Topic 的 消息 分 开 存储 ， 罗 辑 上 一 个 Topic 的 消息 虽然 保存 于 一 个 或 多 个 Broker 上 ， 但 用 户 只 需 指定 消息 的 Topic 即 
可 生产 或 消费 数据 而 不 必 关 心 数据 存 于 何 处 。 


“ Partition ，Partition 是 物理 上 的 概念 ， 每 个 Topic 包 含 一 个 或 多 个 Partition 。 

“ Producer， 消 息 生产 者 ， 负 责 发 布 消息 到 Kafka Broker。 

* Consumer， 消 息 消费 者 ， 向 Kafka Broker 读 取消 息 的 客户 端 。 

Consumer Group， 每 个 Consumer 属 于 一 个 特定 的 Consumer Group (可 为 每 个 Consumer 指 定 Group name， 若 不 指定 Group name 则 属于 默认 的 Group) 。 


如 图 4-8 所 示 ， 在 Kafka 集 群 中 包含 若干 Producer (可 以 是 Web 前 端 产生 的 Page View， 或 者 是 服务 器 日 志 ， 系 统 CPU、Memory 等 ) 、 若 干 Broker (Kafka 支 持 水 平 扩展 ， 一 般 Broker 数 量 越 多 ， 集 
群 吞吐 率 越 高 ) 、 若 干 Consumer Group 以 及 一 个 ZooKeeper 集 群 。Kafka 通 过 ZooKeeper 管 理 集群 配置 ， 选 举 leader， 以 及 在 Consumer Group 发 生变 化 时 进行 rebalance。Producer 使 用 push 模 式 将 消 
息 发 布 到 Broker，Consumer 使 用 pull 模 式 从 Broker 订 阅 并 消费 消息 。 



































(Producer) Front End Front End Front End 
(Push) 
~ 
* 
(Broker) + 
ZooKeeper 
Hadoop Real-time Other Data A ' 册 
(Consumer) Cluster monitoring service warehouse 2 te 
图 4-8 ”Kafka 系统 架构 
需要 重点 介绍 的 是 Kafka 高 性 能 的 奥秘 所 在 。Kafka 中 数据 生产 者 和 消费 者 连接 的 纽带 是 Topic， 一 个 Topic 可 以 有 1 个 或 者 多 个 生产 者 ， 也 可 以 有 1 个 或 者 多 个 消费 者 。 一 个 Topic 有 一 个 或 者 多 个 





Partition， 在 集群 模式 下 ， 通 常 Partition 的 个 数 与 服务 器 的 个 数 相同 或 者 成 倍数 关系 ， 每 个 Partition 如 图 4-9 所 示 ， 在 服务 器 的 硬盘 上 是 一 个 顺序 数据 文件 。 


Anatomy of a Topic 


如 图 
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图 4-9 ”Kafka 的 Partition 数 据 文件 


4-10 所 示 ， 每 个 Partition 是 顺序 文件 ， 按 照 类 似 数组 的 结构 组 织 数据 ， 可 以 按照 顺序 依次 访问 全 部 数据 ， 旧 的 内 容 在 文件 的 前 部 ， 新 的 内 容 不 断 追 加 在 文件 的 最 后 。Kafka 集 群 保留 所 有 已 发 布 的 


记录 ， 只 有 当 超 过 配置 的 日 志保 存 时 间或 者 文件 大 小 时 才 会 释放 旧 的 内 容 四 。 





消费 者 A 消费 者 B 
(offset=9) (offset=11) 


图 4-10 ”Kafka 按照 类 似 数 组 的 结构 组 织 数据 文件 





Kafka 的 下 载 地 址 为 : 





http://kafka.apache.org/downloads 
wget http://mirror.bit.edu.cn/apache/Kafka/0.11.0.0/Kafka 2.11-0.11.0.0.tgz 





截止 写作 本 书 时 ，Kafka 的 最 新 版 本 为 0.11.0.0。 








Kafka 的 正常 运行 需要 依赖 ZooKeeper，Kafka 的 安装 包 里 默认 会 包含 ZooKeeper。 下 面 我 们 以 单机 模式 的 Kafka 演 示 基 本 的 数据 生产 与 消费 过 程 。 其 数据 传输 过 程 如 
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4-11 所 示 。 





hello hello 


生产 者 消费 者 


图 4-11 单机 模式 Kafka 数 据 传 输 过 程 


启动 ZooKeeper， 使 用 默认 配置 文件 即 可 : 








bin/zookeeper-server-start.sh config/zookeeper.properties 








启动 成 功 后 会 显示 绑 定 本 地 端口 2181 : 





2017-07-01 22:06:57,485] INFO tickTime set to 3000 (org.apache.zookeeper.serVver.ZooKeeperServer) 

2017-07-01 22:06:57,485] INFO minSessionTimeout set to -1 (org.apache.zookeeper.server.ZooKeeperServer) 

2017-07-01 22:06:57,485] INFO maxSessionTimeout set to -1 (org.apache.zookeeper.server.ZooKeeperServer) 

2017-07-01 22:06:57,533] INFO binding to port 0.0.0.0/0.0.0.0:2181 (org.apache.zookeeper.server.NIOServerCnxnFactory) 











启动 Kafka 服 务 ， 使 用 默认 配置 即 可 : 





bin/Kafka-server-start.sh config/server.properties 





启动 Kafka 服 务 后 会 显示 Kafka 服 务 启动 成 功 : 





[2017-07-01 22:10:20,678] INFO Kafka version : 0.11.0.0 (org.apache.Kafka.common.utils.AppInfoParser) 


[2017-07-01 22:10:20,680] INFO Kafka commitId : cb8625948210849f (org.apache.Kafka.common.utils.AppInfoParser) 
[2017-07-01 22:10:20,732] INFO [Kafka Server 0], started (Kafka.server.KafkaServer 

创建 名 称 为 Test 的 Topic: 

bin/kafka-topics.sh 

—-create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic Test 


创建 成 功 后 会 显示 : 





Created topic "Test", 





枚 举 Kafka 中 全 部 Topic 信 息 : 





bin/Kafka-topics.sh --list --zookeeper localhost:2181 
Test 








生产 数据 ， 发 送 数据 “hello”: 





bin/Kafka-console-producer.sh --broker-list localhost:9092 --topic Test 
>hello 





消费 数据 ， 读 取 到 数据 “hello”: 





bin/Kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning 

[2017-07-01 22:18:41,160] WARN Error while fetching metadata with correlation id 2 : {test=LEADER NOT AVAILABLE} (org.apache.Kafka.clients.Network-Client) 
[2017-07-01 22:18:41,432] WARN Error while fetching metadata with correlation id 4 : {test=LEADER NOT AVAILABLE} (org.apache.Kafka.clients.Network-Client) 
[2017-07-01 22:18:41,551] WARN Error while fetching metadata with correlation id 6 : {test=LEADER NOT AVAILABLE} (org.apache.Kafka.clients.NetworkClient) 
hello 





[1] http://www.infoqg.com/cn/articles/Kafka-analysis-part-1/ 


[2] http://kafka.apache.org/intro.html 


4.5 ”实时 处 理 层 








实时 处 理 层 主要 使 用 Storm，Storm 是 一 个 免费 开源 、 分 布 式 、 高 容错 的 实时 计算 系统 。Storm 令 持续 不 断 的 流 计算 变 得 容易 ， 弥 补 了 Hadoop 批 处 理 所 不 能 满足 的 实时 要 求 。Storm 经 常用 于 实时 分 


析 、 在 线 机 器 学 习 、 持 续 计 算 、 分 布 式 远程 调用 和 ETL 等 领域 。Storm 的 部 署 管理 非常 简单 ， 而 且 与 同类 的 流 式 计算 工具 相 比 ，Storm 的 性 能 也 是 非常 出 众 的 。 
































Storm 主 要 分 为 两 种 组 件 Nimbus 和 Supervisor， 这 两 种 组 件 本 地 都 不 保存 状态 ， 任 务 状态 和 心跳 信息 等 都 保存 在 ZooKeeper 上 ， 提交 的 代码 资源 都 在 本 地 机 器 的 硬盘 上 。Nimbus 负 责 在 集群 里 面 发 送 
代码 ， 分 配 工作 给 机 器 ， 并 且 监 控 状态 ， 全 局 只 有 一 个 (新 版 Storm 已 经 支持 双 Nimbus) 。Supervisor 会 监听 分 配给 它 那 台 机 器 的 工作 ， 根 据 需 要 启动 /关闭 工作 进程 Worker。 每 一 个 要 运行 Storm 的 机 器 
上 都 要 部 署 一 个 Supervisor， 并 且 按 照 机 器 的 配置 设 定 上 面 分 配 的 槽 位 数 ， 这 里 的 槽 位 可 以 理解 为 CPU。ZooKeeper 是 Storm 重 点 依赖 的 外 部 资源 。Nimbus 和 Supervisor 甚 至 实际 运行 的 Worker 都 是 把 心 
跳 保 存在 ZooKeeper 上 的 。Nimbus 也 是 根据 ZooKeeper 上 的 心跳 和 任务 运行 状况 ， 进 行 调度 和 任务 分 配 。Storm 提 交 运 行 的 程序 称 为 Topology，Topology 处 理 的 最 小 的 消息 单位 是 一 个 Tuple， 也 就 是 一 
个 任意 对 象 的 数组 。Topology 由 Spout 和 Bolt 构 成 。Spout 是 发 出 Tuple 的 节点 。Bolt 可 以 随意 订阅 某 个 Spout 或 者 Bolt 发 出 的 Tuple。Spout 和 Bolt 都 统称 为 omponent。 
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图 4-12 ” Topology 逻辑 图 




















图 4-12 是 一 个 Topology 设 计 的 逻辑 图 的 例子 。 




















图 4-13 是 Topology 的 提交 流程 图 。 
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图 4-13 Topology 的 提交 流程 图 























图 4-14 是 Storm 的 数据 交互 图 。 可 以 看 出 两 个 模块 Nimbus 和 Supervisor 之 间 没 有 直接 交互 ， 状 态 都 是 保存 在 ZooKeeper 上 [1]。 
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Storm 数 据 交 互 图 
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图 4-14 Storm 的 数据 交互 





[1] http://www.cnblogs.com/langtianya/p/5199529.html 


4.6 存储 层 


4.6.1 HDFS 


Hadoop 分 布 式 文件 系统 (HDFS) 被 设计 成 适合 运行 在 通用 硬件 上 的 分 布 式 文件 系统 。 它 和 现 有 的 分 布 式 文件 系统 有 很 多 共同 点 ， 但 同时 它 和 其 他 的 分 布 式 文件 系统 的 
个 高 度 容错 性 的 系统 ， 适 合 部 署 在 廉价 的 机 器 上 。HDFS 能 提供 高 吞吐 量 的 数据 访问 ， 非 常 适 合 大 规模 数据 集 上 的 应 用 。 








区 别 也 是 很 明显 的 。HDFS 是 一 


HDFS 被 设计 成 可 以 简便 地 实现 平台 间 的 迁移 ， 这 将 推动 需要 大 数据 集 的 应 用 更 广泛 地 将 HDFS 作 为 平台 。HDFS 是 一 个 主 从 结构 ， 一 个 HDFS 集 群 具 有 一 个 名 字 节 点 (Namenode) ， 它 是 一 个 管理 文 





件 命名 空间 和 协调 客户 端 访问 文件 的 主 服务 器 。 当 然 还 有 一 些 数据 节点 (Datanode) ， 通 常 是 一 个 节点 一 个 机 器 ， 来 管理 对 应 节点 的 存储 。HDFS 架 构 如 图 4-15 所 示 。HDF 





S 对 外 开放 文件 命名 空间 并 人 允许 


用 户 数据 以 文件 形式 存储 和 访问 。 内 部 机 制 是 将 一 个 文件 分 割 成 一 个 或 多 个 块 ， 这 些 块 被 存储 在 一 组 数据 节点 中 。 “名 字 节 点 ”用 来 操作 文件 命名 空间 的 文件 或 目录 操作 ， 如 打开 、 关 闭 、 重 命名 等 ， 它 同 
时 确定 块 与 数据 节点 的 映射 。 数 据 节 点 负责 来 自 文件 系统 客户 的 读 写 请 求 。 数 据 节 点 同时 还 要 执行 块 的 创建 、 删 除 和 来 自 名 字 节 点 的 块 复制 指令 。 名 字 节 点 和 数据 节点 都 是 运行 在 普通 机 器 之 上 的 软件 ， 典 
型 的 机 器 都 是 6NU/Linux。HDFS 是 用 Java 编 写 的 ， 任 何 支持 Java 的 机 器 都 可 以 运行 名 字 节 点 或 数据 节点 。 利 用 Java 语 言 的 超 轻便 性 ， 很 容易 将 HDFS 部 署 到 大 范围 的 机 器 上 。 典 型 的 部 署 是 由 一 个 专门 的 机 
器 来 运行 名 字 节 点 软件 ， 集 群 中 的 其 他 每 台 机 器 运行 一 个 数据 节点 实例 。 体 系 结构 不 排斥 在 一 个 机 器 上 运行 多 个 数据 节点 的 实例 ， 但 是 实际 的 部 署 不 建议 这 么 使 用 。 集 群 中 只 有 一 个 名 字 节 点 极 大 地 简单 化 


了 系统 的 体系 结构 。 名 字 节 点 是 仲裁 者 和 所 有 HDFS 元 数据 的 仓库 ， 用 户 的 实际 数据 的 读 写 不 经 过 名 字 节 点 中"]。 








Metadata (Name, replicas, ...): 
/home/foo/data, 3, ... 





图 4-15 HDFS 架 构 


[1] http://blog.csdn.net/strongyoung88/article/details/45602305 


4.6 存储 层 
4.6.1 HDFS 





Hadoop 分 布 式 文件 系统 (HDFS) 被 设计 成 适合 运行 在 通用 硬件 上 的 分 布 式 文件 系统 。 它 和 现 有 的 分 布 式 文件 系统 有 很 多 共同 点 ， 但 同时 它 和 其 他 的 分 布 式 文件 系统 的 区 别 也 是 很 明显 的 。HDFS 是 一 
个 高 度 容错 性 的 系统 ， 适 合 部 署 在 廉价 的 机 器 上 。HDFS 能 提供 高 吞吐 量 的 数据 访问 ， 非 常 适合 大 规模 数据 集 上 的 应 用 。 


























HDFS 被 设计 成 可 以 简便 地 实现 平台 间 的 迁移 ， 这 将 推动 需要 大 数据 集 的 应 用 更 广泛 地 将 HDFS 作 为 平台 。HDFS 是 一 个 主 从 结构 ,一 个 HDFS 集 群 具 有 一 个 名 字 节 点 (Namenode) ， 它 是 一 个 管理 文 
件 命名 空间 和 协调 客户 端 访问 文件 的 主 服务 器 。 当 然 还 有 一 些 数据 节点 (Datanode) ， 通 常 是 一 个 节点 一 个 机 器 ， 来 管理 对 应 节点 的 存储 。HDFS 架 构 如 图 4-15 所 示 。HDFS 对 外 开放 文件 命名 空间 并 允许 
户 数据 以 文件 形式 存储 和 访问 。 内 部 机 制 是 将 一 个 文件 分 割 成 一 个 或 多 个 块 ， 这 些 块 被 存储 在 一 组 数据 节点 中 。 “名 字 节 点 ”用 来 操作 文件 命名 空间 的 文件 或 目录 操作 ， 如 打开 、 关 闭 、 重 命名 等 ， 它 同 
时 确定 块 与 数据 节点 的 映射 。 数 据 节点 负责 来 自 文件 系统 客户 的 读 写 请 求 。 数 据 节点 同时 还 要 执行 块 的 创建 、 删 除 和 来 自 名 字 节 点 的 块 复制 指令 。 名 字 节 点 和 数据 节点 都 是 运行 在 普通 机 器 之 上 的 软件 ， 典 
型 的 机 器 都 是 GNU/Linux。HDFS 是 用 Java 编 写 的 ， 任 何 支持 Java 的 机 器 都 可 以 运行 名 字 节 点 或 数据 节点 。 利 用 Java 语 言 的 超 轻 便 性 ， 很 容易 将 HDFS 部 署 到 大 范围 的 机 器 上 。 典 型 的 部 署 是 由 一 个 专门 的 机 
器 来 运行 名 字 节 点 软件 ， 集 群 中 的 其 他 每 台 机 器 运行 一 个 数据 节点 实例 。 体 系 结构 不 排斥 在 一 个 机 器 上 运行 多 个 数据 节点 的 实例 ， 但 是 实际 的 部 署 不 建议 这 么 使 用 。 集 群 中 只 有 一 个 名 字 节 点 极 大 地 简单 化 


了 系统 的 体系 结构 。 名 字 节 点 是 仲裁 者 和 所 有 HDFS 元 数据 的 仓库 ， 用 户 的 实际 数据 的 读 写 不 经 过 名 字 节 点 [1]。 



























































Metadata (Name, replicas, ...): 
/home/foo/data, 3, ... 














4-15 ”HDFS 架 








[1] http://blog.csdn.net/strongyoung88/article/details/45602305 


4.6.2 HBase 











HBase 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系统 ， 利 用 HBase 技 术 可 在 廉价 PC Server 上 搭建 起 大 规模 结构 化 存储 集群 。HBase 是 Google Bigtable 的 开源 实现 ， 类 似 Google 
Bigtable 利 用 GFS 作 为 其 文件 存储 系统 ，HBase 利 用 Hadoop HDFS 作 为 其 文件 存储 系统 。Google 运 行 MapReduce 来 处 理 Bigtable 中 的 海量 数据 ，HBase 同 样 利用 Hadoop MapReduce 来 处 理 HBase 中 的 
海量 数据 。Google Bigtable 利 用 Chubby 作 为 协同 服务 ， 而 HBase 利 用 ZooKeeper。 


















































此 外 ，Pig 和 Hive 还 为 HBase 提 供 了 高 层 语言 支持 ， 使 得 在 HBase 上 进行 数据 统计 处 理 变 得 非常 简单 。Sqoop 则 为 HBase 提 供 了 方便 的 RDBM 数据 导入 功能 ， 使 得 传统 数据 库 数 据 向 HBase 中 迁移 变 得 
非常 方便 [1]。 


HBase 架 构 如 图 4-16 所 示 。HBase 由 以 下 几 个 组 件 构 成 : 





tient 






HRegionServer HRegionServer 


HRegion 
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Store 


图 4-16 HBase 架 构 


Client。HBase Client 使 用 HBase 的 RPC 机 制 与 HMaster 和 HRegionServer 进 行 通信 ， 对 于 管理 类 操作 ，Client 与 HMaster 进 行 RPC; 对 于 数据 读 写 类 操作 ，Client 与 HRegionServer 进 行 RPC。 
ZooKeeper。Zookeeper 中 除了 存储 了 -ROOT- 表 的 地 址 和 HMaster 的 地 址 ，HRegionServer 也 会 把 自己 以 Ephemeral 方 式 注 册 到 ZooKeeper 中 ， 使 得 HMaster 可 以 随时 感知 到 各 个 HRegionServer 的 健康 状态 。 
HMaster。HMaster 没 有 单 点 问题 ，HBase 中 可 以 启动 多 个 HMaster， 通 过 ZooKeepet 的 Master Election 机 制 保 证 总 有 一 个 Master 运 行 ，HMaster 在 功能 上 主要 负责 Table 和 Region 的 管理 工作 。 


“ HRegionServer。HRegionServer 主 要 负责 响应 用 户 I/ 〇 请求 ， 向 HDFS 文 件 系统 中 读 写 数据 ， 是 HBase 中 最 核心 的 模块 。 


[1] http://www.oschina.net/p/hbase 


4.6.3 Elasticsearch 

















Elasticsearch 是 一 个 基于 Lucene 的 搜索 服务 ， 它 提供 了 一 个 分 布 式 多 用 户 能 力 的 全 文 搜索 引擎 ， 基 于 RESTful 的 Web 接 口 。Elasticsearch 是 用 Java 开 发 的 ， 并 作为 Apache 许 可 条 款 下 的 开放 源码 发 
是 当前 流行 的 企业 级 搜索 引擎。Elasticsearch 设 计 用 于 云 计 算 中 ， 能 够 达到 实时 搜索 ， 且 稳定 可 靠 、 快 速 、 安 装 使 用 方便 。 安 装 Elasticsearch 唯 一 的 要 求 是 安装 官方 新 版 的 Java : 





curl -L -0 http://download.elasticsearch.org/PATH/TO/VERSION.zip <1> 
unzip elasticsearch-$VERSION.zip 
cd elasticsearch-$VERSION 





截止 写作 本 书 时 ，Elasticsearch 最 新 版 本 为 5.4.3， 对 应 下 载 方式 为 : 





wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.4.3.zip 





1. 安 装 Marvel 


Marvel 是 Elasticsearch 的 管理 和 监控 工具 ， 在 开发 环境 下 免费 使 用 。 它 包含 了 一 个 叫做 Sense 的 交互 式 控制 台 ， 使 用 户 方便 地 通过 浏览 器 直接 与 Elasticsearch 进 行 交互 。Elasticsearch 线 上 文档 中 的 很 
云 行 示例 代码 而 增加 与 此 书 的 互动 























多 示例 代码 都 附带 一 个 View in Sense 的 链接 。 点 击 进去 ， 就 会 在 Sense 控 制 台 打开 相应 的 实例 。 安 装 Marvel 不 是 必须 的 ， 但 是 它 可 以 通过 在 你 本 地 Elasticsearch 集 群 中 运行 示 


性 。 


Marve| 是 一 个 插件 ， 可 在 Elasticsearch 目 录 中 运行 以 下 命令 来 下 载 和 安装 : 





./bin/plugin -i elasticsearch/marvel/latest 





你 可 能 想 要 禁用 监控 ， 可 以 通过 以 下 命令 关闭 Marvel: 





echo 'marvel.agent.enabled: false' >> ./config/elasticsearch.yml 





2. 运 行 Elasticsearch 


Elasticsearch 已 经 准备 就 绪 ， 执 行 以 下 命令 可 在 前 台 启 动 : 





./bin/elasticsearch 





启动 后 显示 如 下 内 容 表明 启动 成 功 : 


[2017-07-03T16:22:07,668] [INFO ] [o.e.P.PluginsService ] [TK-hA-I] no Plugins loaded 
[2017-07-03T16:22:10,244] [INFO |] [0.e.d.DiscoveryModule ] [TK-hA-I] using discovery type [zen] 
[2017-07-03T16:22:11,080] [INFO |] [o.e.n.Node ] initialized 
[2017-07-03T16:22:11,080] [INFO |] [o.e.n.Node ] [TK-hA-I] 


starting http: 
[2017-07-03T16:22:11, 361] [INFO |] [0.e.t.TransportService ] [TK-hA-I] 
publish address {127.0.0.1:9300}, bound addresses {[fe80::1]:9300}, {[::1]:9300}, 








{270.0.1:9300} 


//www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 


如 果 只 有 本 地 可 以 访问 ， 尝 试 修改 配置 文件 elasticsearch.yml 中 network.host 为 network.host: 0.0.0.0。 如 果 想 在 后 台 以 守护 进程 模式 运行 ， 添 加 -d 参 数 [1]。 


打开 另 一 个 终端 进行 测试 : 


curl 'http://localhost:9200/?pretty' 


你 能 看 到 以 下 返 





"name™ : 
"cluster name" : 
"cluster uuid" : 


"TK-hA-I", 
"elasticsearch", 
"EF6xPvrjQ89q3fmvXqP0jQw", 


"version™ : { 
mumber" : "5.4.3", 
"build hash" : "eed30a8", 
"build date" : "2017-06-22T00:34:03.7432", 


"build snapshot" : false, 
"lucene version” : "6.5.1" 

1 

"tagline" : "You Know, for Search" 


} 


这 说 明 你 的 Elasticsearch 已 经 启动 并 且 正 常 运行 。 


[1] https:/ /es.xiaoleilu.com/010_Intro/10_Installing_ES.html 


4.7 ”分析 处 理 层 


1.Spark 











Apache Spark 是 专 为 大 规模 数据 处 理 而 设计 的 快速 通 
拥有 Hadoop MapReduce 所 : 





























有 的 优点 ， 但 不 同 于 MapReduce 的 是 ，Job 中 间 输 出 结果 可 以 保存 在 内 存 中 ， 从 而 不 再 过 


的 计算 引擎 。Spark 是 UC Berkeley AMP lab (加 州 大 学 伯克利 














分 校 的 AMP 实 验 室 ) 所 开源 的 类 Hadoop MapReduce 的 通用 并 行 框架 。Spark 























前 








读 写 HDFS， 因 此 Spark 能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 迭代 的 














的 开源 集群 计算 环境 ， 但 是 两 者 之 间 还 存在 一 些 不 同 之 处 ， 这 些 有 上 











的 不 


























MapReduce 的 算法 。Spark 是 一 种 与 Hadoop 相 似 | 
存 分 布 数据 集 ， 除 了 能 够 提供 交互 式 查 询 外 ， 它 还 可 以 优化 迭代 工作 负载 。Spark 是 在 Scala 语 言 
以 像 操 作 本 地 集合 对 象 一 样 轻松 地 操作 分 布 式 数据 集 。 














之 所 以 在 机 器 学 习 方 面具 有 得 天 独 厚 的 优势 [1]， 主 要 原因 是 机 器 学 习 





Spar| 
时 如 果 使 
存 中 完成 ， 
MLlib 目 前 支持 4 种 常见 的 机 器 学 习 问 题 : 分 类 、 回 





























只 有 在 必要 时 才 会 操作 磁盘 和 网 络 ， 所 以 说 Spar 











2.TensorFlow 


中 实现 的 ， 它 将 Scala 


同 之 处 使 Spark 在 某 些 工作 负载 方面 表现 得 更 加 优越 ， 换 句 话说 ，Spark 启 用 了 内 























作 其 应 








程序 框架 。 与 Hadoop 不 同 ，Spark 和 Scala 能 够 紧密 集成 ， 其 中 的 Scala 可 














Hadoop 的 MapReduce 计 算 框架 ， 每 次 计算 都 要 读 / 写 磁盘 以 及 任务 启动 等 工作 ， 这 会 导致 非常 大 的 /O 和 CPU 消耗 。 而 Spark 基 于 内 存 的 计算 模型 天 生 就 擅长 迭代 计 : 
正 是 机 器 学 习 的 理想 的 平台 。MLlib (Machine Learnig lib) 是 Spark 对 常 
归 、 聚 类 和 协同 过 滤 。MLlib 基 于 RDD， 天 生 就 可 以 与 Spark SQL、GraphX、Spark Streaming 无 颖 集成 。 


法 一 般 都 有 很 多 个 步骤 迭代 计算 过 程 。 机 器 学 习 的 计算 需要 在 多 次 迭代 后 获得 足够 小 的 误差 或 者 足够 收敛 才 会 停止 迭代 

















， 多 个 步骤 计算 直接 在 内 
法 的 实现 库 ， 同 时 包括 相关 的 测试 和 数据 生成 器 。 



































的 机 器 学 习 


























TensorFlow 是 一 个 采用 数据 流 图 ， 用 于 数值 计算 的 开源 软件 库 。 节 点 在 图 中 表示 数学 操作 ， 






































算 ， 例 如 台式 计算 机 中 的 一 个 或 多 个 CPU (或 GPU) ， 服 务 器 ， 移 动 设备 等 等 。TensorFlow 最 初 








由 Google 大 脑 小 组 ( 隶 


























度 神经 网 络 方面 的 研究 ， 但 这 个 系统 的 通用 性 使 其 也 可 广泛 


























[1] http://www.cnblogs.com/shishanyuan/p/4747761.html 


4.8 计算 系统 





于 其 他 计算 领域 。 详 细 安 装 过 程 请 参考 本 书 第 1 章 相关 内 容 。 

















虽然 机 器 学 习 已 经 有 数 十 年 的 历史 ， 但 是 两 个 较为 新 近 的 趋势 促进 了 机 器 学 习 的 广泛 应 

















1.GPU 





























GPU 全 称 叫做 Graphics Processing Unit， 起 初 设计 用 于 计算 机 的 


上 能 优 于 CPU 性 能 数 十 甚至 数 百倍 。 





























有 成 干 上 万 的 计算 单元 进行 并 行 计 


中 的 线 则 表示 在 节点 间 相互 联系 的 多 维 数 






























































居 数 组 ， 即 张 量 。 它 灵活 的 架构 让 你 可 以 在 多 种 平台 上 展开 计 
属于 Google 机 器 智能 研究 机 构 ) 的 研究 员 和 工程 师 们 开发 出 来 ， 用 于 机 器 学 习 和 深 


: 海量 训练 数据 ， 强 大 而 高 效 的 并 行 计算 。 下 面 分 别 介绍 两 个 强大 而 高 效 的 并 行 计算 。 























( 见 图 4-17) ， 在 矩阵 运算 和 数值 计算 方面 具有 独特 优势 ， 特 别 是 浮 点 和 并 行 计算 























CPU 的 微 架 构 示 意图 CPU 的 微 架 构 示 意图 
(CALU 用 于 计算 的 晶体 管 ) 


图 4-17 GPU 由 成 百 上 千 的 可 以 并 行 计算 的 计算 单元 组 成 


工业 与 学 术 界 的 数据 科学 家 已 将 GPU 用 于 机 器 学 习 以 便 在 各 种 应 用 上 实现 开创 性 的 改进 ， 这 些 应 用 包括 图 像 分 类 、 视 频 分 析 、 语 音 识 别 以 及 自然 语言 处 理 等 等 ， 无 人 驾驶 车 辆 上 的 GPU 如 图 4-18 所 示 。 
尤其 是 深度 学 习 ， 人 们 在 这 一 领域 中 一 直 进 行 大 力 投资 和 研究 。 深 度 学 习 是 利用 复杂 的 多 级 深度 神经 网 络 来 打造 一 些 系统 ， 这 些 系统 能 够 从 海量 的 标记 训练 数据 中 进行 特征 检测 。 

















图 4-18 无 人 驾驶 车 辆 上 的 GPU 




















人 们 利用 GPU 来 训练 这 些 深度 神经 网 络 ， 所 使 用 的 训练 集 大 得 多 ， 所 耗费 的 时 间 大 幅 缩短 ， 占 用 的 数据 中 心 基础 设施 也 少 得 多 。GPU 还 被 用 于 运行 这 些 机 器 学 习 训练 模型 ， 以 便 在 云端 进行 分 类 和 预 
测 ， 从 而 在 耗费 功率 更 低 、 占 用 基础 设施 更 少 的 情况 下 能 够 支持 远 比 从 前 更 大 的 数据 量 和 吞吐 量 。 将 GPU 加 速 器 用 于 机 器 学 习 的 早期 用 户 包括 诸多 大 规模 的 网 络 和 社交 媒体 公司 ， 另 外 还 有 数据 科学 和 机 器 
学 习 领 域 中 一 流 的 研究 机 构 。 如 图 4-19 所 示 ， 在 针对 机 器 学 习 应 用 测试 中 ， 使 用 GPU 后 ， 预 先 录 制 的 语音 或 多 媒体 内 容 的 转录 速度 提升 了 3 倍 。 与 单纯 使 用 CPU 的 做 法 相 比 ，GPU 具 有 数 以 干 计 的 计算 核 
心 ， 可 实现 10 ~ 100 倍 应 用 吞吐 量 ， 因 此 GPU 已 经 成 为 数据 科学 家 处 理 大 数据 的 必 备 中 ]。 
























































10 SGEMM Performance 9.5 TFLOPS 
(Matrix Size = 16K x 16K) 





$5.0 TFLOPS 


Performance (TFLOPS) 


0.7 TFLOPS 


IvyBridge 2xK40 4xK40 
Dual-Socket 
图 4-19 ”针对 机 器 学 习 应 用 的 基准 测试 


TPU 是 谷歌 专门 为 加 速 深层 神经 网 络 运算 能 力 而 研发 的 一 款 芯 片 ( 见 图 4-20) ， 它 通过 优化 片 外 内 存 访问 ， 使 用 低 运算 精度 以 及 使 用 脉动 式 数据 流 大 大 提高 了 运算 能 力 ， 比 GPU、CPU 组 合 快 15 ~ 30 倍 
( 见 图 4-21) 。 











图 4-20 AlphaGo 使 用 的 TPU 

















TPU 在 芯片 上 使 用 了 高 达 24MB 的 局 部 内 存 、6MB 的 累加 器 内 存 以 及 用 于 与 主 控 处 理 器 进行 对 接 的 内 存 ， 总 共 占 芯片 面积 的 37%。 这 表示 Google 充 分 意识 到 片 外 内 存 访问 是 GPU 能 效 比 低 的 罪魁 祸首 ， 
因此 不 惜 成 本 在 芯片 上 放 了 巨大 的 内 存 ( 见 图 4-22) 。 
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图 4-21 相同 计算 任务 下 TPU 与 CPU、GPU 组 合 的 运算 性 能 对 比 


Unified Buffer Matrix Multiply Unit 
for Local Activations (256x256x8b=64K MAC) 


(96Kx256x8b=24 MiB) 24% 
29% of chip 


Accumulators 
(4Kx256x32b = 4 MiB)6% 





图 4-22 TPU 芯 片 架构 
TPU 的 高 性 能 还 来 源 于 对 于 低 运 算 精 度 的 容忍 。 研 究 结果 表明 低 精 度 运算 带 来 的 算法 准确 率 损失 很 小 ， 但 是 在 硬件 实现 上 却 可 以 带 来 巨大 的 便利 ， 包 括 功 耗 更 低 、 速 度 更 快 、 占 芯片 面积 更 小 的 运算 单 
元 、 更 小 的 内 存 带宽 需求 等 。TPU 采 用 8 位 的 低 精 度 运 算 ， 也 就 是 说 每 一 步 操作 TPU 将 会 需要 更 少 的 晶体 管 。 在 晶体 管 总 容量 不 变 的 情况 下 ， 单 位 时 间 可 以 在 这 些 晶体 管 上 运行 更 多 的 操作 ， 这 样 就 能 够 使 用 
更 加 复杂 与 强大 的 机 器 学 习 算 法 ， 以 更 快 的 速度 得 到 更 加 智能 的 结果 。 























在 Google 的 测试 中 ， 使 用 64 位 浮 点 数学 运算 器 的 18 核 心 运行 在 2.3GHz 的 处 理 器 ， 能 够 处 理 每 秒 1.3TOPS 的 运算 ， 并 提供 每 秒 51GB 的 内 存 带 宽 。 相 比 之 下 ，TPU 使 用 8 位 整数 数学 运算 器 ， 拥 有 256GB 
的 主机 内 存 以 及 32GB 的 内 存 ， 能 够 实现 每 秒 34GB 的 内 存 带宽 ， 处 理 速度 高 达 92TOPS， 这 提升 了 71 倍 。 

GPU 从 存储 器 中 取 指 令 与 数据 将 耗费 大 量 的 时 间 ，TPU 甚 至 没有 取 命 令 的 动作 ， 而 是 主 处 理 器 提供 给 它 当前 的 指令 ，TPU 根 据 目前 的 指令 做 相应 操作 ， 这 使 得 TPU 能 够 实现 更 高 的 计算 效率 。 在 和 矩阵 乘 
法 和 卷 积 运算 中 ， 许 多 数据 是 可 以 复 用 的 ， 同 一 个 数据 需要 和 许多 不 同 的 权重 相 乘 并 累加 以 获得 最 后 结果 。 因 此 ， 在 不 同 的 时 刻 ， 数 据 输 入 中 往往 只 有 一 两 个 新 数据 需要 从 外 面 取 ， 其 他 的 数据 只 是 上 一 个 
时 刻 数据 的 移 位 。 在 这 种 情况 下 ， 把 片上 内 存 的 数据 全 部 进行 Flush 再 去 取 新 的 数据 无 疑 是 非常 低 效 的 。 根 据 这 个 计算 特性 ，TPU 加 入 了 脉动 式 数据 流 的 支持 ， 每 个 时 钟 周 期 数据 移 位 ， 并 取 回 一 个 新 数据 


( 见 图 4-23) 。 这 样 做 可 以 最 大 化 数据 复 用 ， 并 减 小 内 存 访问 次 数 ， 在 降低 内 存 带宽 压力 的 同时 也 减 小 了 内 存 访问 的 能 量 消耗 白 。 








Partial Sums 


Done 











4-23 TPU 加 入 了 脉动 式 数据 流 的 支持 








[1] http://www.nvidia.cn/object/machine-learning-cn.html 


[2] https://www.leiphone.com/news/201704/bROIfw7coWSErOpP.html 


4.9 ”实战 演练 











本 节 以 常见 的 Linux 服 务 器 SSH 登 录 日 志 搜 集 为 例 ， 介 绍 各 个 开源 组 件 的 协作 关系 。 





1. 系 统 架 构 





系统 架构 图 
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图 4-24 简化 的 系统 架构 图 
2 .数据 搜集 


数据 搜集 纬度 需求 是 搜集 原始 数据 存储 并 向 用 户 提供 交互 式 检索 的 UI 接 口 ， 典 型 场景 就 是 出 现 安全 事件 后 ， 通 过 检索 日 志 回溯 攻 击 行为 和 定 损 。Linux 服 务 器 登录 日 志 搜集 流程 如 图 4-25 所 示 。 








Logstash 其 实 可 以 直接 把 数据 写 入 Elasticsearch (简称 ES) ， 但 是 考虑 到 Storm 也 要 数据 处 理 ， 所 以 把 数据 切 分 放 到 Logstash， 切 分 后 的 数据 发 送 Kafka， 提 供给 Storm 处 理 和 Logstash 写 入 
Elasticsearch。 数 据 检 索 可 以 直接 使 用 Kibana， 非 常 方便 ， 数 据 切 分 也 可 以 在 storm 里面 完成 。 这 个 就 是 大 名 易 昂 的 ELK 架 构 。Elasticsearch 比 较 适 合 存储 较 短 时 间 的 热 数据 用 于 实时 检索 查询 ， 对 于 需要 
长 期 存储 的 数据 ， 并 且 希 望 使 用 Spark 进 行 大 时 间 跨 度 的 离线 分 析 时 ， 还 需要 将 数据 存储 到 HDFS 上 ， 所 以 比较 常见 的 数据 流程 如 图 4-26 所 示 。 
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4-25 Linux 服务 器 登录 日 志 搜集 流程 








Linux 服 务 需 产生 


登录 日 志 







Logstash 搜 集 日 志 


Logstash 切 分 日 志 


Logstash 推 送 给 
Kafka 


Logstash 从 Kafka 
订阅 数据 


Logstash 写 ES Logstash 写 HDFS 





HDFS 














图 4-26 ”Linux 服 务 器 登录 日 志 存 储 流程 





3 数据 处 理 纬度 





这 里 以 数据 实时 流 式 处 理 为 例 ( 见 图 4-27) ，Storm 从 Kafka 中 订阅 切 分 过 的 SSH 登 录 日 志 ， 匹 配 检测 规则 ， 检 测 结 果 写 入 MySQL 或 者 Elasticsearch。 











在 这 个 例子 中 ， 孤 立 看 一 条 登录 日 志 难 以 识别 安全 问题 ， 最 多 识别 非 跳板 机 登录 ， 真 正 运 行 还 需要 参考 知识 库 中 的 常见 登录 IP、 时 间 、IP 情 报 以 及 临时 存储 处 理 状态 的 状态 库 中 最 近 该 IP 的 登录 成 功 与 
失败 情况 。 比 较 接近 实际 运行 情况 的 流程 如 图 4-28 所 示 。 
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4-28 优化 后 的 Linux 服 务 器 登录 日 志 处 理 流程 

















4 扩展 数据 源 


生产 环境 中 ， 处 理 安全 奸 











“ Linux/Windows 系 统 安全 日 志 /操作 日 志 ; 


"Web 服务 器 访问 


“ 数据 库 SQL 日 志 


“ 网 络 流量 日 志 。 


上 日志; 





扩展 数据 源 后 的 简化 系统 架构 如 图 4-30 所 示 。 











具体 判断 逻辑 如 图 4-29 所 示 ， 实 际 中 使 用 大 量 代理 IP 同 时 暴力 破解 ， 打 一 枪 换 一 个 地 方 那 种 方法 无 法 覆盖 。 


有 件 ， 分 析 入 侵 行为 ， 只 有 SSH 登 录 日 志 肯 定 是 不 够 ， 我 们 需要 尽 可 能 多 地 搜集 数据 源 ， 以 下 作为 参考 : 





在 本 文 环节 中 ，Logstash 的 配置 量 甚 至 超过 了 Storm 的 拓扑 脚本 开发 量 ， 这 里 讨论 比较 重要 的 几 点 。 





从 文件 读 取 : 

input file { 
path => ["/var/log/*.log", "/var/log/message"] 
type => "system" 
start position => "beginning" } 





疑似 被 盗 Y 


从 Kafka 中 订阅 : 
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4-29 ”Linux 服 务 器 账户 被 盗 检 测 逻 辑 


写 人 状态 
数据 库 


Y 一 >| 疑似 被 盗 





input { 
Kafka { 


zk connect. => "192.168.1.3:2181™ 


group_ id => "Logstash" 
topic id => "test" 

reset beginning => false 
consumer threads => 5 
decorate events => true } 





写 Kafka : 





output { 
Kafka { 
broker list => "192.168.1.3:9092" 
topic jd => "test" 
compression codec => "snappy" } 





SQL 日 志 
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操作 系统 Logstash 日 志 topic 











4-30 扩展 数据 源 后 的 系统 架构 








写 HDFS: 





output { 
hadoop webhdfs { 

workers => 2 
server => "192.168.1.5:14000" 
user => "logstash" 
Path => "/user/Logstash/dt=%{+Y}-%{+M}-%{+d}/Logstash-%{+H} .10g" 
flush size => 500 
Compress => "snappy" 
idle flush time => 10 
retry interval => 0.5 } 





写 Elasticsearch: 





output { 
elasticsearch { 

host => "192.168.1.6" 
protocol => "http" 
index => "Logstash-%{type}-%{+YYYY.MM.dd}" 
index type => "%{type}" 
workers => 5 
template overwrite => true } 





4.10 ”本 章 小 结 


本 章 基于 OpenSOC 介 绍 了 机 器 学 习 技术 框架 ， 涉 及 的 开源 软件 包括 Logstash、Bro、Kafka、Spark、Storm 等 ， 读 者 可 以 结合 公司 的 实际 业务 需求 ， 在 OpenSOC 的 基础 上 建立 自己 的 机 器 学 习 技 术 框 
架 。 


验证 码 CAPTCHA 是 全 自动 


第 5 章 “验证 码 识别 


区 分 计算 机 和 人 类 的 图 灵 测 试 (Completely Automated Public Turing test to tell Computers and Humans Apart) 的 缩写 ， 是 一 种 








区 分 用 户 是 计算 机 还 是 人 的 公共 全 自 








动 程序 。 设 计 的 初衷 是 防止 恶意 破解 密码 、 刷 票 、 论 坛 治水， 实际 上 用 验证 码 是 现在 很 多 网 站 通行 的 方式 。 验 证 码 的 基本 假设 是 ， 由 于 计算 机 无 法 解答 CAPTCHA 的 问题 ， 所 以 回答 出 问题 的 用 户 就 可 以 被 


认为 是 人 类 。 攻 防 是 相生 相伴 的 





， 针 对 验证 码 出 现 了 大 量 的 破解 技术 ， 读 者 可 以 参考 一 下 《验证 码 安全 那些 事 》[]。 





常见 的 数字 型 验证 码 变种 多 样 ， 比 如 某 招聘 网 站 验证 码 ， 字 母 周围 有 噪点 ， 字 体 扭曲 。 











某 电 商 网 站 验证 码 ， 不 同样 式 ， 字 母 阴影 ， 


字母 粘连 ， 背 景色 干扰 。 














某 社交 网 站 验证 码 ，3 








E 体 干扰 线 ， 背 景色 了 





F 扰 ， 背 景 字母 干扰 ， 字 体 扭曲 ， 字 母 粘连 。 



































本 章 主要 以 MNIST 数 据 集 为 例 介绍 识别 数字 型 验证 码 ， 介 绍 验证 码 识别 使 用 的 特征 提取 方法 ， 包 括 一 维 向 量 、 二 维 向 量 、 使 用 的 模型 以 及 对 应 的 验证 结果 ， 包 括 K 近 邻 、 支 持 向 量 机 和 深度 学 习 。 














本 章 演示 代码 请 参考 本 书 GitHub 上 的 mnist.py 文 件 。 


[1] http://www.freebuf.com/articles/rookie/131542.html 


5.1 数据 集 





验证 码 识别 使 用 的 数据 集 为 MNIST 数 据 集 ，MNIST 是 一 个 入 门 级 的 计算 机 视觉 数据 集 ， 它 包含 各 种 手写 数字 图 片 ， 如 图 5-1 所 示 。 




















5-1 MNIST 图 片 示例 

















该 数据 集 也 包含 每 一 张 图片 对 应 的 标签 ， 告 诉 我 们 这 个 是 数字 几 。 比 如 这 4 张 图 片 的 标签 分 别 是 5，0，4，1。 数 据 集 包 括 60000 个 图 片 训练 数据 集 和 10000 个 图 片 测试 数据 集 。 每 一 个 MNIST 数 据 单元 
由 两 部 分 组 成 : 一 张 包含 手写 数字 的 图 片 和 一 个 对 应 的 标签 ( 见 表 5-1) 。 每 一 张 图 片 包 含 28x28 个 像素 点 ， 可 以 把 这 个 数组 展开 成 一 个 一 维 向 量 ， 长 度 是 28x28 = 784。 














表 5-1 MNIST 数 据 集合 详解 


文件 名 称 文件 用 途 
train-images-idx3-ubyte.gz 60000 个 图 片 训练 样本 
train-labels-idx1-ubyte.gz 60000 个 图 片 训练 样本 的 标注 
t10k-images-idx3-ubyte.gz 10000 个 图 片 测试 样本 
tl0k-labels-idx1-ubyte.gz 10000 个 图 片 测试 样本 的 标注 


MNIST 官 网 见 图 5-2，MNIST 的 网 址 为 : 








http://yann.lecun.com/exdb/mnist/ 








也 可 以 使 用 离线 版 的 MNIST 文 件 ， 下 载 链接 为 : 





http://www.iro.umontreal.ca/~1isa/deep/data/mnist/mnist.Pk1.9Z 





C | © yann.lecun.com/exdb/mnist/ 


THE MNIST DATABASE 
of handwritten digits 


Yann LeCun, Courant Institute, NYU 
Corinna Cortes, Google Labs, New York 
Christopher J.C. Burges, Microsoft Research, Redmond 


The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,00 
from NIST. The digits have been size-normalized and centered in a fixed—size image. 


lt is a good database for people who want to try learning techniques and pattern recognition methods on real-world data while sp 
formatting. 


Four files are available on this site: 


train-images~-idx3-ubyte.gz: training set images (9912422 bytes) 
train-labels~ ~ubyte.gqz: training set labels (28881 bytes) 


tl0Ok~-images-idx3-ubyte.gqz: test set images (1648877 bytes) 
tl0k-labels-idxl-ubyte.gz: test set labels (4542 bytes) 








5-2 MNIST 官 网 











文件 读 取 方式 为 : 





import Pickle 
import gzip 
def load data() : 
with gzip.open('./mist.pkl.gz') as fp: 
training data, valid data, test data = pickle.load(fp) 
return training data, valid data, test data 





5.2 ”特征 提取 


方法 一 : 一 维 向 量 。 


这 也 是 MNIST 默 认 的 特征 提供 方式 ， 将 28x28 的 图 片 转换 成 了 长 度 为 784 的 一 维 向 量 : 








import tflearn.datasets.mnist as mnist 
X, Y, testXx, test¥ = mist.load data(one hot=True) 





方法 二 : 二 维 向 量 。 


为 了 适应 特定 模型 ， 需 要 将 原本 的 一 维 向 量 转换 回 原 有 的 28x28 的 二 维 向 量 ， 具 体 方法 使 用 数组 的 reshape 函 数 即 可 : 





X = X.reshape([-1，28，28，1]) 
testX = testX.reshape([-1，28，28，1]) 





5.3 ”模型 训练 与 验证 


5.3.1 K 近 邻 算法 


使 用 K 近 邻 算法 ， 特 征 提取 使 用 一 维 向 量 ， 完 整 的 处 理 流程 如 图 5-3 所 示 。 





训练 集 


按照 文件 划分 


K 近 邻 算 法 训练 


1) 读 


取 MNIST 数 据 集 数据 。 


2) 按照 文件 划分 为 训练 集 和 测试 集 。 


3) 使 














K 近 邻 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 





4) 使 














模型 数据 在 测试 集 上 进行 预测 。 








图 








5-3 ”特征 提取 使 用 一 维 向 量 的 近邻 算法 处 理 流程 


测试 集 


戏 玉 验证 





5) 验证 K 近 邻 算 法 预测 效果 。 





实例 化 K 近 邻 算法 ， 特 征 提取 方式 使 用 一 维 向 量 ， 其 中 邻居 数量 n_neighbors 设 置 为 15: 








clf = neighbors.KNeighborsClassifier (n_neighbors=15) 





对 训练 数据 集 进 行 训 练 : 





clf.fit (x train, y train) 





针对 测试 集 进行 预测 并 评估 准确 性 : 





y_pred = clf.predict (x test) 
print metrics.accuracy scorel(ly test, y pred) 








运行 程序 ， 经 过 训练 ， 在 测试 数据 集 上 预测 准确 率 为 96.28%: 





KNeighborsClassifier (algorithm="'auto', leaf size=30, metric= 'minkowski', 
metric params=None, n jobs=1, n neighbors=15, p=2, 
weights="'uniform') 

0.9628 





5.3 ”模型 训练 与 验证 


5.3.1 K 近 邻 算法 





使 用 K 近 邻 算 法 ， 特 征 提取 使 用 一 维 向 量 ， 完 整 的 处 理 流程 如 图 5-3 所 示 。 





训练 集 


按照 文件 划分 


K 近 邻 算 法 训练 


1) 读 


取 MNIST 数 据 集 数据 。 


2) 按照 文件 划分 为 训练 集 和 测试 集 。 


3) 使 














K 近 邻 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 





4) 使 














模型 数据 在 测试 集 上 进行 预测 。 
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5-3 ”特征 提取 使 用 一 维 向 量 的 近邻 算法 处 理 流程 


测试 集 


戏 玉 验证 





5) 验证 K 近 邻 算 法 预测 效果 。 





实例 化 K 近 邻 算法 ， 特 征 提取 方式 使 用 一 维 向 量 ， 其 中 邻居 数量 n_neighbors 设 置 为 15: 








clf = neighbors.KNeighborsClassifier (n_neighbors=15) 





对 训练 数据 集 进 行 训 练 : 





clf.fit (x train, y train) 





针对 测试 集 进行 预测 并 评估 准确 性 : 





y_pred = clf.predict (x test) 
print metrics.accuracy scorel(ly test, y pred) 








运行 程序 ， 经 过 训练 ， 在 测试 数据 集 上 预测 准确 率 为 96.28%: 





KNeighborsClassifier (algorithm="'auto', leaf size=30, metric= 'minkowski', 
metric params=None, n jobs=1, n neighbors=15, p=2, 
weights="'uniform') 

0.9628 





5.3.2 ”支持 向 量 机 算法 





使 用 支持 多 分 类 的 支持 向 量 机 ， 特 征 提取 一 维 向 量 ， 完 整 的 处 理 流程 如 图 5-4 所 示 。 


按照 文件 划分 


文 持 四 量 机 


算法 训练 





图 5-4 ”特征 提取 使 用 一 维 向 量 的 支持 向 量 机 算法 处 理 流程 
1) 读 取 MNIST 数 据 集 数 据 。 


2) 按照 文件 划分 为 训练 集 和 测试 集 。 











3) 使 用 支持 向 量 机 在 训练 集 上 训练 ， 获 得 模型 数据 。 











4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





5) 验证 支持 向 量 机 预测 效果 。 























特征 提取 方式 使 用 一 维 向 量 ， 使 用 支持 多 分 类 的 支持 向 量 机 : 























clf = svm.SVC (decision _ function_shape='ovo') 


实例 化 支持 向 量 机 ， 对 训练 数据 集 进 行 训 练 : 





clf.fit (x train, y train) 





针对 测试 集 进行 预测 并 评估 准确 性 : 





y_pred = clf.predict (x test) 
print metrics.accuracy_scorel(ly test, y pred) 





运行 程序 ， 经 过 训练 ， 在 测试 数据 集 上 预测 准确 率 为 94.39%: 





SVC(C=1.0, cache size=200, class weight=None, coef0=0.0, 
decision function shape='ovo', degree=3, gamma='auto', kernel='rbf', 
max iter=-1, probability=False, random state=None, shrinking=True, 
tol=0.001, verbose=False) 

0.9439 





5.3.3 ”深度 学 习 算 法 之 MLP 


算法 使 用 多 层 感知 机 ， 即 MLP， 特 征 提取 使 用 一 维 向 量 ， 完 整 的 处 理 流程 如 图 5-5 所 示 。 


按照 文件 划分 


MLP 算 法 训练 








图 5-5 ”特征 提取 使 用 一 维 向 量 的 MLP 算 法 处 理 流程 








测试 集 





1) 读 取 MNIST 数 据 集 数据 。 

2) 按照 文件 划分 为 训练 集 和 测试 集 。 

3) 使 用 MLP 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 
4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 

5) 验证 MLP 算 法 预测 效果 。 


特征 提取 方式 使 用 一 维 向 量 ， 定 义 输入 层 是 维度 为 784 的 一 维 向 量 : 





input layer = tflearn.input_data(shape=[None，784]) 








构造 MLP 模 型 ， 使 用 3 个 全 连接 层 : 





densel = tflearn.fully connected (input layer, 64, activation='tanh', 
regularizer='L2', weight decay=0.001) 

dropout1l = tflearn.dropout (densel, 0.8) 

dense2 = tflearn.fully connected(dropout1, 64, activation='tanh', 
regularizer='L2', weight decay=0.001) 

dropout2 = tflearn.dropout (dense2, 0.8) 

softmax = tflearn.fully connected (dropout2, 10, activation='softmax') 

# Regression using SGD with learning rate decay and Top-3 accuracy 

sgd = tflearn.SGD (learning rate=0.1, lr decay=0.96, decay_step=1000) 

top k = tflearn.metrics.Top k(3) 

net = tflearn.regression (softmax, optimizer=sgd, metric=top k, 

loss='categorical crossentropy') 





完整 的 MLP 结 构 如 图 5-6 所 示 。 





实例 化 MLP 算 法 并 训练 10 轮 : 





# Training 

model = tflearn.DNN (net, tensorboard verbose=0) 

model .fit (X, Y, n epoch=10, validation set= (testX，testY)， 
show metric=True, run igd="mnist") 





运行 程序 ， 经 过 10 轮 训练 ， 准 确 率 达 到 了 99.49%: 





Training Step: 8600 | total loss: 0.28404 | time: 5.892s 
| SGD | epoch: 010 | loss: 0.28404 - top3: 0.9842 | val loss: 0.12718 - val acc: 0.9949 -- iter: 55000/55000 





5.3.4 ”深度 学 习 算法 之 CNN 





使 用 CNN 算 法 ， 特 征 提取 使 用 二 维 向 量 ， 完 整 的 处 理 流程 如 图 5-7 所 示 。 
1) 读 取 MNIST 数 据 集 数据 。 

2) 转换 成 二 维 向 量 。 

3) 按照 文件 划分 为 训练 集 和 测试 集 。 


4) 使 用 CNN 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 
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图 5-6 ”用 于 识别 MNIST 的 MLP 结 构图 


5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 


6) 验证 CNN 算 法 预测 效果 。 


按照 文件 划分 


训练 集 


CNN 算 法 训练 











图 5-7 ”特征 提取 使 用 二 维 向 量 的 CNN 算 法 处 理 流程 








特征 提取 方式 使 用 二 维 向 量 ， 定 义 输入 层 为 28x28 的 二 维 向 量 : 





network = input data(shape=[None, 28, 28, 1], name='input') 








构造 CNN 模 型 ， 使 用 2 层 卷 积 3 层 全 连接 结构 ， 其 中 卷 积 大 小 为 3x3: 





network = conv 2d (network，32，3，activation= 'relu', regularizer="L2") 


network = max pool 2d (network, 2) 

network = local response normalization (network) 

network = conv_2d (network, 64, 3, activation= 'relu', regularizer="L2") 
network = max pool 2d (network, 2) 

network = local response normalization (network) 

network = fully t connected (network, 128, activation='tanh') 

network = dropout (network, 0.8) 

network = fully connected (network, 256, activation='tanh') 

network = dropout (network, 0.8) 

network = fully connected (network, 10, activation='softmax') 
network = regression (network, optimizer='adam', learning rate=0.01, 


loss='categorical crossentropy', name='target') 





完整 的 CNN 结 构 如 图 5-8 所 示 。 
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图 5-8 ”用 于 识别 MNIST 的 CNN 结 构图 


实例 化 CNN 算 法 并 训练 10 轮 : 





model = tflearn.DNN (network, tensorboard verbose=0) 

model.fit ({'input': X}, {'target': Y}, n epoch=10, 
validation set=({'input': testX}, {'target': testY}), 
snapshot_step=100, show metric=True, run id='convnet mnist') 





运行 程序 ， 经 过 10 轮 训练 ， 准 确 率 达到 了 96.98%: 





Training Step: 8600 | total loss: 0.39358 | time: 139.542s 
| Adam | epoch: 010 | loss: 0.39358 ~ acc: 0.9366 | val loss: 0.12829 - val acc: 0.9698 -- iter: 55000/55000 





5.4 ”本 章 小 结 


本 章 基于 MNIST 数 据 集 介 绍 了 验证 码 的 识别 方法 。 针 对 MNIST 数 据 集 ， 特 征 提取 方法 有 一 维 向 量 和 二 维 向 量 两 种 方法 。 训 练 模型 介绍 了 K 近 邻 、 支 持 向 量 机 以 及 深度 学 习 的 MLP 和 CNN 算 法 ， 其 中 
MLP 算 法 表现 优异 ， 识 别 率 达到 了 99% 以 上 。 实 际 上 CNN 的 类 型 非常 多 ， 这 里 只 介绍 了 结构 非常 简单 的 一 种 实现 ， 有 兴趣 的 读者 可 以 尝试 使 用 结构 更 加 复杂 的 CNN， 根 据 相关 文献 显示 ， 复 杂 结 构 的 CNN 
在 MNIST 上 的 准确 率 也 可 以 达到 99% 以 上 。 


第 6 章 ”垃圾 邮件 识别 


























垃圾 邮件 作为 因特网 中 最 具有 争议 的 副产品 ， 对 于 企业 邮箱 用 户 的 影响 首先 就 在 于 给 日 常 办 公 和 邮箱 管理 者 带 来 额外 负担 。 根 据 不 完全 统计 ， 在 高 效 的 反 垃圾 环境 下 仍然 有 80% 的 用 户 每 周 需要 耗费 10 
分 钟 左 右 的 时 间 处 理 垃圾 邮件 ， 而 对 于 中 国 多 数 企业 邮件 应 用 仍 处 于 低 效率 反 垃圾 环境 的 情况 下 ， 这 个 比例 更 是 呈现 数 十 倍 的 增长 ， 中 国 垃圾 邮件 的 总 量 已 经 达到 全 球 第 三 []。 对 于 企业 邮件 服务 商 而 言 ， 
垃圾 邮件 的 恶意 投 送 ， 还 会 大 量 占用 网 络 资源 ， 使 得 邮件 服务 器 859% 的 系统 资源 用 于 处 理 垃圾 邮件 的 识别 ， 不 仅 资源 浪费 极其 严重 ， 甚 至 可 能 导致 网 络 阻塞 瘫 并 ， 影 响 企业 正常 业务 邮件 的 沟通 。 












































































































































更 严重 的 垃圾 邮件 问题 甚至 不 仅 只 是 影响 企业 工作 效率 ， 甚 至 会 祸 及 整个 服务 器 。 由 于 企业 邮箱 平台 往往 通信 质量 更 好 ， 更 容易 为 国际 反 垃 圾 邮件 平台 白 名 单 所 接纳 ， 因 此 成 为 垃圾 邮件 投 送 者 甚至 网 
络 黑 客 的 重点 攻击 目标 。 通 过 劫持 这 些 企业 邮箱 ， 垃 圾 邮件 投 送 者 就 可 以 大 大 提高 垃圾 邮件 投 送 率 。 这 不 仅 将 为 企业 邮箱 用 户 造成 无 法 预知 的 影响 ， 同 时 还 可 能 遭遇 反 垃 圾 邮件 组 织 和 邮件 接收 方 的 “壮士 
断 腕 ”。 对 于 那些 大 量 垃圾 邮件 的 投放 地 址 ， 国 际 反 垃 圾 邮件 组 织 和 接收 方 服务 商 将 会 将 其 加 入 到 国际 垃圾 邮件 数据 库 中 ， 从 而 导致 该 主机 不 能 与 其 他 国家 正常 通信 ， 严 重 影响 企业 海外 业务 的 扩展 。 

















































































































正 因为 垃圾 邮件 具有 如 此 严重 的 危害 。 如 今 ， 国 内 众多 中 小 型 企业 都 在 从 过 去 的 自主 建设 服务 、 借 助 价格 低廉 的 小 型 服务 商 建立 邮件 系统 ， 转 而 将 163、QQ 企 业 邮 箱 这 类 大 型 专业 邮件 服务 商 作为 唯一 
选择 。 显 而 易 见 ，163、QQ 企 业 邮 箱 这 类 更 大 型 更 专业 的 邮件 服务 提供 商 ， 不 仅 在 反 垃圾 邮件 技术 上 更 加 成 熟 ， 同 时 也 更 有 利于 与 国内 外 众多 的 反 过 圾 邮件 组 织 与 邮件 服务 商 联合 起 来 ， 组 建 综合 的 反 垃圾 
邮件 平台 ， 通 过 共享 实时 拒 收 列 表 来 阻挡 垃圾 邮件 的 传播 。 大 型 企业 往往 选择 自 建 邮 件 系统 ， 为 了 抵御 垃圾 邮件 侵扰 ， 通 常会 使 用 商用 的 邮件 安全 解决 方案 ， 常 见 的 国外 厂商 包括 Cisco、Blue Coat、 
Websense、Zscaler 以 及 McAfee。 















































































































































本 章 介绍 垃圾 邮件 识别 使 用 的 数据 集 以 及 特征 提取 方法 ， 包 括 词 袋 模型 、TF-IDF 模 型 和 词汇 表 模型 。 介 绍 使 用 的 模型 以 及 对 应 的 验证 结果 ， 包 括 朴素 贝 叶 斯 、 支 持 向 量 机 和 深度 学 习 。 














本 章 演示 代码 请 参考 本 书 GitHub 上 的 spam-mail.py 文 件 。 


[1] http://news.ifeng.com/a/20140725/41314715_0.shtml?f=hao123 


6.1 数据 集 
























































垃圾 邮件 识别 使 用 的 数据 集 为 Enron-Spam 数 据 集 ， 其 主页 如 图 6-1 所 示 ，Enron-Spam 数 据 集 是 目前 在 电子 邮件 相关 研究 中 使 用 最 多 的 公开 数据 集 ， 其 邮件 数据 是 安然 公司 (Enron Corporation， 原 
是 世界 上 最 大 的 综合 性 天 然 气 和 电力 公司 之 一 ， 在 北美 地 区 是 头号 天 然 气 和 电力 批发 销售 商 ) 150 位 高 级 管理 人 员 的 往来 邮件 。 这 些 邮 件 在 安然 公司 接受 美国 联邦 能 源 监管 委员 会 调查 时 被 公布 到 网 上 。 

























































































机 器 学 习 领 域 使 用 Enron-Spam 数 据 集 来 研究 文档 分 类 、 词 性 标注 、 垃 圾 邮件 识别 等 ， 由 于 Enron-Spam 数 据 集 都 是 真实 环境 下 的 真实 邮件 ， 非 常 具有 实际 意义 。 











C www2.aueb.gr/users/ion/data/enron-spam/ 


ontents of this directory: 


。 readme .txt 
。 Enron-Spam in pre-processed form: 
Enronl 


。 Enron-Spam in raw form: 
o ham messages: 





图 6-1 Enron- Spam 数 据 集 主页 





Enron-Spam 数 据 集 结构 如 图 6-2 所 示 ， 使 用 不 同文 件 夹 区 分 正常 邮件 和 垃圾 邮件 。 





国 enron2 
8 转 四 rol | 要 ~]|[ 关 -| 目 ]| 马 


A AirDrop * Mham 2006 年 5 月 16 日 上 午 12:23 


要 > MM spam 2006 年 5 月 16 日 上 午 12:23 
我 的 所 … | | | Summary.txt 2005 年 11 月 1 日 下 午 11:26 
CD icloud... 


从 应 用 程序 
国 桌面 





图 6-2 Enron-Spam 数 据 集 文件 夹 结构 


正常 邮件 内 容 举例 如 下 : 





Subject: christmas baskets 

the christmas baskets have been ordered . 
we have ordered several baskets . 
individual earth - sat freeze - notis 
smith barney group baskets 

rodney keys matt rodgers charlie 
notis jon davis move 

team 

phillip randle chris hyde 

harvey 

freese 

faclities 





垃圾 邮件 内 容 举例 如 下 : 





Subject: fw : this is the solution i mentioned lsc 

oo 

thank you ， 

your email address was obtained from a purchased list ， 

reference # 2020 mid = 3300 . if you wish to unsubscribe 

from this list , please click here and enter 

your name :into the remove box . if you have previously unsubscribed 
and are still receiving this message , you may email our abuse 
control center , or call 1 - 888 - 763 - 2497 , or write us at : nospam ， 
6484 coral way , miami , fl , 33155 " . 2002 

web credit inc . all rights reserved . 





Enron-Spam 数 据 集 对 应 的 网 址 为 : 





http://www2.aueb.gr/users/ion/data/enron-spam/ 





6.2 ”特征 提取 


6.2.1 词 袋 异 型 


文本 特征 提取 有 两 个 非常 重要 的 模型 : 





“ 词 集 模型 ， 单 词 构成 的 集合 ， 集 合 中 仅 统计 单词 有 或 者 无 ， 不 关心 出 现 的 次 数 。 
“ 词 袋 模型 ， 在 词 集 的 基础 上 ， 如 果 一 个 单词 在 文档 中 出 现 不 止 一 次 ， 统 计 其 出 现 的 次 数 (频数 ) 。 


两 者 本 质 上 的 区 别 在 于 ， 词 袋 是 在 词 集 的 基础 上 增加 了 频率 的 维度 ， 词 集 只 关注 有 和 没有 ， 词 袋 还 要 关注 有 几 个 。 





假设 我 们 要 对 一 篇 文章 进行 特征 化 ， 最 常见 的 方式 就 是 词 袋 。 


导入 相关 的 函数 库 : 





>>> from sklearn.feature extraction.text import CountVectorizer 





实例 化 分 词 对 象 : 





>>> vectorizer = CountVectorizer (min df=1) 
>>> vectorizer 


CountVectorizer (analyzer=http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/...'word', binary=False, 
decode error=http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/...'strict', 
dtype=<http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 'numpy.int64'>, encoding=http://www.hzcourse.com/resource 


lowercase=True, max df=1.0, max features=None, min df=1, 

ngram range=(1, 1), preprocessor=None, stop words=None, 

strip accents=None, token pattern=http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/...' (2u) \\b\\w\\wt\\b', 
tokenizer=None, vocabulary=None) 





将 文本 进行 词 袋 处 理 : 





>>> corpus = [ 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 'This is the first document.', 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/ 'This is the second second document.', 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/OEBPS/Text/ 'And the third one.', 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 'Is this the first document?', 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... ] 

>>> X = vectorizer.fit transform(corpus) 











>>> XxX 
<4x9 sparse matrix of type '<http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 'numpy.int64'>' 
with 19 stored elements in Compressed Sparse http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... format> 
获取 对 应 的 特征 名 称 : 
>>> vectorizer.get feature names() 一 ( 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... ['and', 'document', 'first', 'is', 'one', 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/O0EBPS/Text/... 'second', 'the', 'third', 'this']) 
True 





获取 词 袋 数据 ， 至 此 ， 我 们 已 经 完成 了 词 袋 化 : 





>>> X.toarray( 


) 
array([[0, 1, 1, 1, 0, 0, 1, 0, 1], 
[0, 1, 0, 1, 0, 2, 1, 0, 1], 
[1, 0, 0, 0, 1, 0, 1, 1, 0], 
[0, 1, 1, 1, 0, 0, 1, 0, 1]]http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/...) 








但 是 如 何 使 用 现 有 的 词 袋 的 特征 ， 对 其 他 文本 进行 特征 提取 呢 ? 我 们 定义 词 袋 的 特征 空间 叫做 词汇 表 (vocabulary) : 





Vocabulary=vectorizer.Vocabulary_ 














针对 其 他 文本 进行 词 袋 处 理 时 ， 可 以 直接 使 用 现 有 的 词汇 表 : 











>>> new_Vectorizer = CountVectorizer (min_df=1，Vocabulary=vocabulary) 








在 本 例 中 ， 将 整个 邮件 包括 正文 当成 一 个 字符 串 处 理 ， 其 中 回 车 和 换行 需要 过 滤 掉 : 


























def load one file (filename) : 
xn 
with open (filename) as f: 
for line in f: 

line=line.strip('\n') 
line=line.strip('\r') 
x+=line 

return x 








遍历 指定 文件 夹 下 全 部 文件 ， 加 载 数据 : 





def load files from dir(rootdir): 
x=[] 
list = os.listdir (rootdir) 
for i in range(0, len(list)): 
path = os.path.join (rootdir, list[i]) 
if os.path.isfile (path): 
Vv=l0ad one file (path) 
x.append (v) 
return x 





Enron-Spam 数 据 集 的 数据 分 散在 6 个 文件 夹 ， 即 Enron1 到 Enron6， 正 常 文件 在 ham 文 件 夹 下 ， 垃 圾 邮件 在 spam 文 件 夹 下 ， 依 次 加 载 全 部 数据 : 





def load all files(): 

ham=[] 

spam=[] 

for i in range(1,7): 
path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/mail/enrons$d/ham/" 村 i 
print "Load %s" % path 加 | 
ham+=load files from dir (path) 
path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/mail/enronsd/spam/" % i 
Print "Load %s" $% path 
spamt=load files from dir (path) 

return ham, spam 

















使 用 词 袋 模型 ， 向 量化 正常 邮件 和 垃圾 邮件 样本 ， 其 中 ham 文 件 夹 下 的 样本 标记 为 0， 表 示 正 常 邮 件 ，spam 文 件 夹 下 的 样本 标记 为 1， 表 示 垃 圾 邮件 : 








def get features_by wordbag () : 

ham, spam=load all files () 

x=ham+spam 

y=[0]*len (ham) +[1]*len (spam) 

Vectorizer = CountVectorizer( 
decode error='ignore', 
strip accents="'ascii', 
max features=max features, 
stop words="'english', 
max df=1, 
min df=1 ) 

Print vectorizer 

x=vectorizer.fit transform(x) 

x=x.toarray () 

return x,y 





CountVectorize 函 数 比 较 重要 的 几 个 参数 为 : 
“ decode_error， 处 理解 码 失败 的 方式 ， 分 为 “sttict” “ignore” “replace”3 种 方式 。 
:strip_accents， 在 预 处 理 步骤 中 移 除 重音 的 方式 。 
“ max_features， 词 袋 特 征 个 数 的 最 大 值 。 
stop_words， 判 断 word 结 束 的 方式 。 
“ max_df，df 最 大 值 。 
- min_df，df 最 小 值 。 


“binary， 默 认为 False， 当 与 TF-IDF 结 合 使 用 时 需要 设置 为 True。 















































本 例 中 处 理 的 数据 集 均 为 英文 ， 所 以 针对 decode_error 直 接 忽略 ， 使 用 jgnore 方 式 ，stop_words 的 方式 使 用 english ，strip_accents 方 式 为 asci 访 式 。 


6.2 ”特征 提取 


6.2.1 词 绕 异型 





文本 特征 提取 有 两 个 非常 重要 的 模型 : 
“ 词 集 模型 ， 单 词 构成 的 集合 ， 集 合 中 仅 统计 单词 有 或 者 无 ， 不 关心 出 现 的 次 数 。 
“ 词 袋 模型 ， 在 词 集 的 基础 上 ， 如 果 一 个 单词 在 文档 中 出 现 不 止 一 次 ， 统 计 其 出 现 的 次 数 〈 频 数 ) 。 


两 者 本 质 上 的 区 别 在 于 ， 词 袋 是 在 词 集 的 基础 上 增加 了 频率 的 维度 ， 词 集 只 关注 有 和 没有 ， 词 袋 还 要 关注 有 几 个 。 








假设 我 们 要 对 一 篇 文章 进行 特征 化 ， 最 常见 的 方式 就 是 词 袋 。 


导入 相关 的 函数 库 : 





>>> from sklearn.feature extraction.text import CountVectorizer 





实例 化 分 词 对 象 : 





>>> vectorizer = CountVectorizer (min df=1) 
>>> vectorizer 


CountVectorizer (analyzer=http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/...'word', binary=False, 
decode error=http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/...'strict', 
dtype=<http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 'numpy.int64'>, encoding=http://www.hzcourse.com/resource 


lowercase=True, max df=1.0, max features=None, min df=1, 
ngram range=(1, 1), preprocessor=None, stop words=None, 


strip accents=None, token pattern=http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/...' (2u) \\b\\w\\w+t\\b', 


tokenizer=None, vocabulary=None) 





将 文本 进行 词 袋 处 理 : 





>>> corpus = [ 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/ 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/ 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/ 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... ] 

>>> X = vectorizer.fit transform(corpus) 

>>> X 

<4x9 sparse matrix of type '<http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 'numpy.int64'>"' 


1This is the first document.', 

'This is the second second document.', 
'And the third one.', 

'Is this the first document?', 





with 19 stored elements in Compressed Sparse http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/OEBPS/Text/... 


format> 








获取 对 应 的 特征 名 称 : 
>>> vectorizer.get feature names() 一 ( 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... ["and'， 'document', 'first', 'is', 'one', 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 'second', "the'， 'third', "this']) 

True 





获取 词 袋 数据 ， 至 此 ， 我 们 已 经 完成 了 词 袋 化 : 





>>> X.toarray( 


) 
array([[0, 1, 1, 1, 0, 0, 1, 0, 1], 
[0, 1, 0, 1, 0, 2, 1, 0, 1], 
[1, 0, 0, 0, 1, 0, 1, 1, 0], 
[0, 1, 1, 1, 0, 0, 1, 0, 1]]http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/...) 














但 是 如 何 使 用 现 有 的 词 袋 的 特征 ， 对 其 他 文本 进行 特征 提取 呢 ? 我 们 定义 词 袋 的 特征 空间 叫做 词汇 表 (vocabulary) : 











vocabulary=vectorizer.vocabulary_ 














针对 其 他 文本 进行 词 袋 处 理 时 ， 可 以 直接 使 用 现 有 的 词汇 表 : 














>>> new_Vectorizer = CountVectorizer (min df=1, vocabulary=vocabulary) 














了 














在 本 例 中 ， 将 整个 邮件 包括 正文 当成 一 个 字符 





处 理 ， 其 中 回 车 和 换行 需要 过 滤 掉 : 





def load one file (filename) : 
xn 
with open (filename) as f: 
for line in f: 

line=line.strip('\n') 
line=line.strip('\r') 
x+=line 

return x 





遍历 指定 文件 夹 下 全 部 文件 ， 加 载 数据 : 





def load files from dir(rootdir): 
x=[] 
list = os.listdir (rootdir) 
for i in range(0, len(list)): 
path = os.path.join(rootdir, list[i]) 
if os.path.isfile (path): 
Vv=l0ad one file (path) 
x.append (v) 
eto 芭 





Enron-Spam 数 据 集 的 数据 分 散在 6 个 文件 夹 ， 即 Enron1 到 Enron6， 正 常 文件 在 ham 文 件 夹 下 ， 垃 圾 邮件 在 spam 文 件 夹 下 ， 依 次 加 载 全 部 数据 : 





def load all files() : 
ham=[] 
spam=[] 
for i in range(1,7): 
path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/mail/enron%sd/ham/" % i 
print "Load %s" % path 加 
oad files from dir (Path) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/mail/enronsd/spam/" % i 
Print "Load %s" % Path 
spamt=load files from dir (path) 
return ham, spam 




















使 用 词 袋 模型 ， 向 量化 正常 邮件 和 垃圾 邮件 样本 ， 其 中 ham 文 件 夹 下 的 样本 标记 为 0， 表 示 正 常 邮 件 ，spam 文 件 夹 下 的 样本 标记 为 1， 表 示 垃 圾 邮件 : 











def get features by wordbag () : 

ham, spam=load all files() 

X=ham+spam 

y=[0]*len (ham) +[1]*len (spam) 

Vectorizer = CountVectorizer( 
decode error='ignore', 
strip accents="'ascii', 
max features=max features, 
stop_words='english', 
max df=1, 
min df=1 ) 

print vectorizer 

x=vectorizer.fit transform(x) 

X=x.toarray () 

return x,y 





个 语料库 的 重 
级 中 














说 明 词 条 t 


CountVectorize 函 数 比 较 重 要 的 几 个 参数 为 : 


* decode_error， 处 理解 码 失 败 的 方式 ， 分 为 “strict” 


' sttip_accents， 在 预 处 理 步骤 中 移 除 重音 的 方式 。 


.max_features， 词 袋 特 征 个 数 的 最 大 值 。 
:stop_words， 判 断 word 结 束 的 方式 。 
' max_df，df 最 大 值 。 


“ min_df，df 最 小 值 。 


“ignore 


3 种 方式 。 


“replace” 


' binary， 默 认为 False， 当 与 TF-IDF 结 合 使 用 时 需要 设置 为 True。 


本 例 中 处 理 的 数据 集 均 为 英文 ， 所 以 针对 decode_error 直 接 忽略 ,使 


6.2.2 TF-IDF 模 型 


文本 处 理 领 域 还 有 一 种 特征 提取 方法 ， 叫 做 词 频 与 逆向 文件 频率 模型 (term frequency-inverse document frequency，TF-IDF) 。TF-IDF 是 一 种 统计 方法 ， 
性 与 它 在 文件 中 出 现 的 次 数 成 正比 ， 但 同时 与 它 在 语料库 中 出 现 的 频率 成 反比 。 








程度 。 字 词 的 重 
































ignore 方 式 ，stop_words 的 方式 使 


























english，strip_accents 方 式 为 ascii 方 式 。 




















以 评估 某 一 字 词 对 于 一 个 文件 集 或 一 
， 作 为 文件 与 用 户 查询 之 间 相 关 程 度 的 度量 或 评 











TF-IDF 加 权 的 各 种 形式 常 被 搜索 引擎 应 | 





























TF-IDF 的 主要 思想 是 ， 根 据 某 个 词 或 短语 在 一 篇 文章 中 出 现 的 频率 即 词 频 (Term Frequency，TF) ， 如 果 词 频 高 ， 并 且 在 其 他 文章 中 很 少 出 现 ， 则 认为 此 词 或 者 短语 具有 很 好 的 类 别 区 分 能 力 ， 适 合 
来 分 类 。TF-IDF 实 际 上 是 : TFx1IDF。TF 表 示 词 条 在 文档 d 中 出 现 的 频率 。 逆 向 文件 频率 (inverse document frequency，IDF) 的 主要 思想 是 : 如 果 包 含 词 条 t 的 文档 越 少 ， 也 就 是 n 越 小 ，IDF 越 大 ， 则 





























在 Scikit-Learn 中 实现 了 TF-IDF 算 法 ， 实 例 化 TfidfTransformer 即 可 : 








有 很 好 的 类 别 区 分 能 力 。 如 果 某 一 类 文档 C 中 包含 词 条 t 的 文档 数 为 m， 而 其 他 类 包含 {的 文档 总 数 为 kK， 显 然 所 有 包含 {的 文档 数 n = m + k， 当 m 大 的 时 候 ，n 也 大 ， 按 照 IDF 公 式 得 到 的 IDF 的 值 会 
小 ， 就 说 明 该 词 条 t 类 别 区 分 能 力 不 强 。 但 是 实际 上 ， 如 果 一 个 词 条 在 一 个 类 的 文档 中 频繁 出 现 ， 则 说 明 该 词 条 能 
文本 的 特征 词 以 区 别 于 其 他 类 文档 。 








够 很 好 代表 这 个 类 的 文本 的 特征 ， 这 样 的 词 条 应 该 给 它们 赋予 较 高 的 权重 ， 并 选 来 作为 该 类 





>>> from sklearn.feature extraction.text import TfidfTransformer 
>>> transformer = TfidfTransformer (smooth idf=False) 


>>> transformer 


TfidfTransformer (norm=http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/...'12', smooth idf=False, 


sublinear tf=False, use 











TF-IDF 模 型 通常 和 词 袋 模型 配合 使 有 











， 对 词 袋 模 型 生成 的 数组 进一步 处 理 : 





>>> counts = [[3，0，1]， 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/OEBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/OEBPS/Text/,.. 


COORGN 
bb 口 口 品 
DMOooooO 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 


>>> tfidf = transformer.fit transform(counts) 


Sy> tfidf 


<6x3 sparse matrix of type '<http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 


>>> tfidf.toarray () 


array ([[ 0.81940995, 0. Y 

1. 1 0. ， 0. ], 
(1. + 0. ， 0 ], 
[1. 1 0. , 0. J 
[ 0.47330339, 0.88089948, 0. js 
[ 0.58149261, 0. » DO.813551659]]) 


0.57320793]， 


'numpy. float64'>"' with 9 stored ele 














在 本 例 中 ， 获 取 完 ham 和 spam 数 据 后 ,使 





词 袋 模型 CountVectorizer 进 行 词 袋 化 ， 














中 binary 参 数 需 要 设置 为 True， 然 后 再 使 








TfidfTransformer 计 算 TF-IDF: 














def get features by wordbag tdjfd() : 
ham, spam=load all files() 
x=ham+spam 二 
y=[0]*len (ham)+[1]*len(spam) 


Vectorizer = CountVectorizer (binary=True, 


decode error='ignore', 
strip accents='ascii', 

max features=max features, 
stop words="'english", 


max df=1.0, 

min df=1 ) 
x=vectorizer.fit transform(x) 
X=x.toarray () 


transformer = TfidfTransformer (smooth idf=False) 


tfidf = transformer.fit transform (x) 
x = tfidf.toarray () 
return x,y 





62.3 


词汇 表 模 型 


词 袋 模型 可 以 很 好 地 表现 文本 由 哪些 单词 组 成 ， 但 是 却 无 法 表达 出 单词 之 间 的 前 后 关系 ， 于 是 人 们 借鉴 了 词 袋 模型 的 思想 ， 使 





[1] http://www.chinaz.com/web/2012/0521/252930.shtml 





了 这 种 模型 : 











生成 的 词汇 表 对 原 有 句子 按照 单词 逐个 进行 编码 。TensorFlow 默 认 支 持 








tf.contrib.learn.preprocessing.VocabularyProcessor ( 


max document length, 
min frequency=0, 
vocabulary=None, 
tokenizer fn=None) 








其 中 各 个 参数 的 含义 为 : 

max_document_length: ， 文 档 的 最 大 长 度 。 如 果 文 本 的 长 度 大 于 最 大 长 度 ， 那 么 它 会 被 截断 ， 反 之 则 用 0 填充 。 
min_frequency， 词 频 的 最 小 值 ， 出 现 次 数 小 于 最 小 词 频 则 不 会 被 收录 到 词 表 中 。 
vocabulary，CategoricalVocabulary 对 象 。 

tokenizer fn， 分 词 函 数 。 


假设 有 如 下 句子 需要 处 理 : 





x text =[ 
'i love you', 
"me too' 


] 





基于 以 上 句子 生成 词汇 表 ， 并 对 'i me too 这 句 话 进行 编码 ; 





Vocab processor = learn.preprocessing.VocabularyProcessor (max document length) 
Vocab processor.fit (x text) 

print next (vocab processor.transform(['i me too'])).tolist() 

x = np.array (list (vocab processor.fit transform(x text))) 





运行 程序 ，x_text 使 用 词汇 表 编 码 后 的 数据 为 : 





[LIL 全 了 站] 
[4500]] 





'i me too 这 句 话 编码 的 结果 为 : 





[1, 4, 5, 0] 





整个 过 程 如 图 6-3 所 示 。 





love you 
2 3 


1 me too 145 


i love you 


me too 


图 6-3 ”使 用 词汇 表 模型 进行 编码 


在 本 例 中 ， 获 取 完 ham 和 spam 数 据 后 ， 通 过 VocabularyProcessor 函 数 对 数据 集 进行 处 理 ， 获 取 词汇 表 ， 并 按照 定义 的 最 大 文本 长 度 进行 截断 处 理 ， 没 有 达到 最 大 文本 长 度 的 使 用 0 填充 : 





global max document length 

x=[] 

ll 

ham, spam=load all files() 

X=ham+spam 

y=[0]*len (ham) +[1]*len (spam) 

vp=tflearn.data utils.VocabularyProcessor (max document length=max document length, 
min frequency=0, 
vocabulary=None, 
tokenizer fn=None) 

x=vp.fit transform(x, unused y=None) 

x=np.array (list (x)) 

return x,y 





6.3 ”模型 训练 与 验证 


6.3.1 ”朴素 贝 叶 斯 算法 














使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 模型 ， 完 整 的 处 理 流程 如 图 6-4 所 示 。 

















Enron-Spam 


样本 






训练 集 





朴素 贝 叶 其 
算法 训练 














1) 将 Enron -Spam 数 据 集 的 文件 提取 词 袋 。 


2) 随机 划分 为 训练 集 和 测试 集 。 











3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








5) 验证 朴素 贝 叶 斯 算法 预测 效果 。 





将 数据 集合 随机 分 配 成 训练 集合 和 测试 集合 ， 其 中 测试 集合 比例 为 40%: 





x train, x test, y train, y test = train test split(x, y, test size = 0.4, random state = 0) 





实例 化 朴素 贝 叶 斯 算法 ， 针 对 训练 集 进 行 训练 ， 并 针对 测试 集 进 行 预测 : 





gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 


评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 





在 词 袋 最 大 特征 数 为 5000 的 情况 下 ， 整 个 系统 准确 度 为 94.33%，TP、FP、TN、FN 和 矩阵 见 表 6-1。 


表 6-1 基于 词 袋 模型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 
检索 到 
未 检索 到 





完整 输出 结果 为 : 


不 相 关 
632 


6875 





CountVectorizer (analyzer=u'word', binary=False, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=5000, min df=1, 
ngram range=(1, 1), preprocessor=None, stop words='english', 
strip accents='ascii', token pattern=u' (?u) \b\\w\\wt\\b', 
tokenizer=None, vocabulary=None) 

0.943278712835 

[[5937 632] 

[ 133 6785]] 











从 调 优 的 角度 ， 我 们 试图 分 析 词 袋 最 大 特征 数 max_features 对 结果 的 影响 ， 我 们 分 别 计算 max_features 从 1000 到 10000 对 评估 准确 度 的 影响 : 


网 














global max features 
a=[] 
b=[] 
for i in range(1000,20000,2000): 
max features=i 
print "max features=%d" % i 
x, y = get features by wordbag () 
x train, x test, y train, y test = train test split(x, y, test size=0.4, random state=0) 
gnb = GaussianNB () 
gnb.fit (x train, y train) 
y_Pred = gnb.predict (x test) 
score=metrics.accuracy scorel(ly test, y pred) 
a.append (max features) 
b.append (score) 
Plt.plot{ar BD £3 











可 视 化 结果 如 图 6-5 所 示 。 可 见 max_features 值 越 大 ， 模 型 评估 准确 度 越 高 ， 同 时 整个 系统 运算 时 间 也 增长 ， 当 max_features 超 过 约 13000 以 后 ， 系 统 准确 率 反 而 下 降 ， 所 以 将 max_features 设 置 为 











13000 左 右 ， 系 统 准 确 度 达到 最 大 ， 接 近 96.4%。 但 是 实验 表明 ， 当 max_features 超 过 5000 时 计算 时 间 明 显 过 长 ， 且 对 准确 率 提升 不 明显 ， 所 以 折 中 角 





度 max_features 取 5000 也 可 满足 实验 要 求 。 
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6-5 词 袋 最 大 特征 数 对 朴素 贝 叶 斯 算法 预测 结果 的 影响 











当 max features 设 置 为 13000 时 系统 运行 结果 为 : 





CountVectorizer (analyzer=-u Word ， binary=False，dqecoqe_error='ignore' 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u" content' 
lowercase=True, max df=1. 0, max features=13000, min a 
ngram range=(1, 1), preprocessor=None, stop w Words=， en 
strip accents='ascii', token pattern=u' (?u) Po ene 

tokenizer=None, vocabulary-None) 

0.963965299918 

[[6369 200] 

[ 286 6632]] 





使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 6-6 所 示 。 
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TF-IDF 处 理 
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训练 集 测试 集 


补 系 贝 叶 斯 
算法 训练 
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小 
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1) 将 Enron -Spam 数 据 集 的 文件 提取 词 袋 。 

















2) 使 用 IF-IDF 算 法 处 理 。 





3) 随机 划分 为 训练 集 和 测试 集 。 














4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 




















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 


6) 验证 朴素 贝 叶 斯 算法 预测 效果 。 





将 数据 集合 随机 分 配 成 训练 集合 和 测试 集合 ， 其 中 测试 集合 比例 为 40%: 





x train, x test, y train, y test = train test split(x, y, test size = 0.4, random state = 0) 





实例 化 朴素 贝 叶 斯 算法 ， 针 对 训练 集 进 行 训练 ， 并 针对 测试 集 进行 预测 : 





gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 














在 词 袋 最 大 特征 数 为 5000， 使 用 TF-IDF 算 法 处 理 的 情况 下 ， 整 个 系统 准确 度 为 95.91%，TP、FP、TN、FN 和 矩阵 见 表 6-2， 同 等 条 件 下 准确 率 比 词 袋 模型 有 所 提升 。 











表 6-2 基于 词 袋 和 TF-IDF 的 朴素 贝 叶 斯 验证 结果 


不 相 关 
98 
6465 


类 型 名 称 
念 索 到 
未 检索 到 





完整 输出 结果 为 : 





CountVectorizer (analyzer=u'word'，binary=True，decode_error='ignore'， 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=5000, min df=1, 
ngram range=(1, 1), preprocessor=None, stop words='english', 
strip accents="'ascii', token pattern=u' (2u)\b\\w\\wt\\b', 
tokenizer=None, vocabulary=None) 

TfidfTransformer (norm=u'12', smooth idf=False, sublinear tf=False, 

use_idf=True) 

NB and wordbag 

0.959145844146 

[[6471 98] 

[ 453 6465]] 





6.3 ”模型 训练 与 验证 


6.3.1 ”朴素 贝 叶 斯 算法 


























使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 模型 ， 完 整 的 处 理 流程 如 图 6-4 所 示 。 





Enron-Spam 


梓 本 


提取 词 袋 


随机 划分 


训练 集 测试 案 















朴 系 贝 叶 期 


算法 训 纤 


1) 将 Enron-Spam 数 据 集 的 文件 提取 词 袋 。 


2) 随机 划分 为 训练 集 和 测试 集 。 














3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 











5) 验证 朴素 贝 叶 斯 算法 预测 效果 。 





将 数据 集合 随机 分 配 成 训练 集合 和 测试 集合 ， 其 中 测试 集合 比例 为 40%: 





x train, x test, y train, y test = train test split(x, y, test size = 0.4, random state = 0) 





实例 化 朴素 贝 叶 斯 算法 ， 针 对 训练 集 进 行 训练 ， 并 针对 测试 集 进 行 预测 : 





gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 





在 词 袋 最 大 特征 数 为 5000 的 情况 下 ， 整 个 系统 准确 度 为 94.33%，TP、FP、TN、FN 和 矩阵 见 表 6-1。 


表 6-1 基于 词 袋 模型 的 朴素 贝 叶 斯 验证 结果 


不 相 关 
632 


类 型 名 称 
检索 到 


未 检索 到 6875 





完整 输出 结果 为 : 





CountVectorizer (analyzer=u'word', binary=False, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=5000, min df=1, 
ngram range=(1, 1), preprocessor=None, stop words='english', 
strip accents="'ascii', token pattern=u' (?u) \b\\w\\wt\\b', 
tokenizer=None, vocabulary=None) 

0.943278712835 

LIS937. 632] 

[ 133 6785]] 











网 


从 调 优 的 角度 ， 我 们 试图 分 析 词 袋 最 大 特征 数 max_features 对 结果 的 影响 ， 我 们 分 别 计算 max_features 从 1000 到 10000 对 评估 准确 度 的 影响 : 














global max _ features 
a=[] 
b=[] 
for i in range(1000,20000,2000): 
max features=i 
print "max features=%d" % i 
x, y = get features by wordbag () 
x train, x test, y train, y test = train test split(x, y, test size=0.4, random state=0) 
gnb = GaussianNB () 
gnb.fit (x train, y train) 
y_pred = gnb.predict (x test) 
score=metrics.accuracy scorel(ly test, y pred) 
a.append (max features) 
b.append (score) 
Plt.plot(a, b, 'r') 











可 视 化 结果 如 图 6-5 所 示 。 可 见 max_features 值 越 大 ， 模 型 评估 准确 度 越 高 ， 同 时 整个 系统 运算 时 间 也 增长 ， 当 max_features 超 过 约 13000 以 后 ， 系 统 准 确 率 反 而 下 降 ， 所 以 将 max_features 设 置 为 
13000 左 右 ， 系 统 准确 度 达 到 最 大 ， 接 近 96.4%。 但 是 实验 表明 ， 当 max_features 超 过 5000 时 计算 时 间 明 显 过 长 ， 且 对 准确 率 提升 不 明显 ， 所 以 折 中 角度 max_features 取 5000 也 可 满足 实验 要 求 。 
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6-5 词 袋 最 大 特征 数 对 朴素 贝 叶 斯 算法 预测 结果 的 影响 











当 max features 设 置 为 13000 时 系统 运行 结果 为 : 





CountVectorizer (analyzer=-u Word ， binary=False，dqecoqe_error='ignore' 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u" content' 
lowercase=True, max df=1. 0, max features=13000, min a 
ngram range=(1, 1), preprocessor=None, stop w Words=， en 
strip accents='ascii', token pattern=u' (?u) Po ene 

tokenizer=None, vocabulary-None) 

0.963965299918 

[[6369 200] 

[ 286 6632]] 





使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 6-6 所 示 。 
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1) 将 Enron -Spam 数 据 集 的 文件 提取 词 袋 。 

















2) 使 用 IF-IDF 算 法 处 理 。 





3) 随机 划分 为 训练 集 和 测试 集 。 














4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 




















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 


6) 验证 朴素 贝 叶 斯 算法 预测 效果 。 





将 数据 集合 随机 分 配 成 训练 集合 和 测试 集合 ， 其 中 测试 集合 比例 为 40%: 





x train, x test, y train, y test = train test split(x, y, test size = 0.4, random state = 0) 





实例 化 朴素 贝 叶 斯 算法 ， 针 对 训练 集 进 行 训练 ， 并 针对 测试 集 进行 预测 : 





gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 














在 词 袋 最 大 特征 数 为 5000， 使 用 TF-IDF 算 法 处 理 的 情况 下 ， 整 个 系统 准确 度 为 95.91%，TP、FP、TN、FN 和 矩阵 见 表 6-2， 同 等 条 件 下 准确 率 比 词 袋 模型 有 所 提升 。 











表 6-2 基于 词 袋 和 TF-IDF 的 朴素 贝 叶 斯 验证 结果 


不 相 关 
98 
6465 


类 型 名 称 
念 索 到 
未 检索 到 





完整 输出 结果 为 : 





CountVectorizer (analyzer=u'word'，binary=True，decode_error='ignore'， 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=5000, min df=1, 
ngram range=(1, 1), preprocessor=None, stop words='english', 
strip accents="'ascii', token pattern=u' (2u)\b\\w\\wt\\b', 
tokenizer=None, vocabulary=None) 

TfidfTransformer (norm=u'12', smooth idf=False, sublinear tf=False, 

use_idf=True) 

NB and wordbag 

0.959145844146 

[[6471 98] 

[ 453 6465]] 





6.3.2 ”支持 向 量 机 算法 



































使 用 支持 向 量 机 (SVM) 算法 ， 特 征 提取 使 用 词 袋 模型 ， 完 整 的 处 理 流程 如 图 6-7 所 示 。 
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图 6-7 “特征 提取 使 用 词 袋 模型 的 支持 向 量 机 算法 处 理 流程 
1) 将 Enron-Spam 数 据 集 的 文件 提取 词 袋 。 


2) 随机 划分 为 训练 集 和 测试 集 。 











3) 使 用 支持 向 量 机 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








5) 验证 支持 向 量 机 算法 预测 效果 。 





将 数据 集合 随机 分 配 成 训练 集合 和 测试 集合 ， 其 中 测试 集合 比例 为 40% : 





x train, x test, y train, y test = train test split(x, y, test size = 0.4, random state = 0) 





实例 化 支持 向 量 机 算法 ， 在 训练 集 上 训练 并 在 测试 集 上 预测 : 





clf = svm.SVC () 
clf.fit (x train, y train) 
y_pred = clf.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 





在 词 袋 最 大 特征 数 为 5000 的 情况 下 ， 整 个 系统 准确 度 为 90.61%，TP、FP、TN、FN 和 矩阵 见 表 6-3。 


表 6-3 ”基于 词 袋 模型 的 SVM 验证 结果 


类 型 名 称 不 相 关 


检索 到 1239 
未 检索 到 6891 





完整 输出 结果 为 : 





CountVectorizer (analyzer=u'word', binary=False, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=5000, min df=1, 
ngram range=(1, 1), preprocessor=None, stop words='english', 
strip accents="'ascii', token pattern=u' (3?u) \b\\w\\wt\\b', 
tokenizer=None, vocabulary=None) 

SVM and wordbag 

0.906131830652 

LiS330 1239] 

[ 27 6891]] 





6.3.3 ”深度 学 习 算法 之 MLP 


近 几 年 有 学 者 尝试 使 用 深度 学 习 算 法 提高 垃圾 邮件 识别 率 。 











我 们 先 使 用 深度 学 习 算 法 最 简单 的 一 种 ， 多 层 感知 机 (Multi-layer Perceptron，MLP) 。 我 们 构造 包括 两 层 隐 藏 层 的 MLP， 每 层 节点 数 分 别 为 5 和 2， 结 构 如 图 6-8 所 示 。 


隐藏 层 











图 6-8 ”用 于 垃圾 邮件 检测 的 MLP 结 构 




















在 Scikit-Learn 中 可 以 使 用 MLPClassifier 实 现 MLP， 特 征 提取 使 用 词 袋 模型 完整 的 处 理 流程 如 图 6-9 所 示 。 
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图 6-9 ”特征 提取 使 用 词 袋 模型 的 MLP 算 法 处 理 流程 











1) 将 Enron-Spam 数 据 集 的 文件 提取 词 袋 。 


2) 随机 划分 为 训练 集 和 测试 集 。 











3) 使 用 MLP 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 





4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 


5) 验证 MLP 算 法 预测 效果 。 





将 数据 集合 随机 分 配 成 训练 集合 和 测试 集合 ， 其 中 测试 集合 比例 为 40%: 





x train, x test, y train, y test = train test split(x, y, test size = 0.4, random state = 0) 





实例 化 MLP， 在 训练 集 上 训练 并 在 测试 集 上 预测 : 








clf = MLPClassifier (solver="'lbfgs', 
alpha=le-5, 
hidden layer sizes = (5, 2), 
random state = 1) 

clf.fit(x train, y train) 

y_pred = clf.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 





在 词 袋 最 大 特征 数 为 5000 的 情况 下 ， 整 个 系统 准确 度 为 98.01%，TP、FP、TN、FN 和 矩阵 见 表 6-4。 


表 6-4 基于 词 袋 模型 的 MLP 验 证 结果 


不 相 关 


检索 到 163 
未 检索 到 6813 





完整 输出 结果 为 : 





DNN and wordbag 

maxlen=5000 

MLPClassifier (activation='relu', alpha=le-05, batch size='auto', beta 1=0.9, 
beta 2=0.999, early stopping=False, epsilon=1e-08, 
higdden layer sizes=(20, 5, 2), learning rate='constant', 
learning rate init=0.001, max iter=200, momentum=0.9, 
nesterovs momentum=True, power t=0.5, random state=1， shuffle=True, 
solver='lbfgs', tol=0.0001, validation fraction=0.1, verbose=False, 
warm start=False) 加 

0.980129013124 

[[6406 163] 

[ 105 6813]] 





6.3.4 深度 学 习 算法 之 CNN 
图 像 通常 是 二 维 数组 ， 文 字 通 常 都 是 一 维 数 














像 处理 领 域 计 算 量 巨大 而 无 法 进行 深度 学 习 的 问题 ，CNN 通 过 卷 积 计算 、 池 化 等 大 大 降低 了 计算 量 ， 同 时 识别 效果 还 满足 需求 。 








CNN 的 诞生 是 为 了 解决 
据 ， 是 否 可 以 通过 某 种 转换 后 ， 也 使 用 CNN 对 文字 进行 处 理 呢 ? 答案 是 肯定 的 。 


6-10 所 示 ，CNN 使 用 二 维 卷 积 函数 处 理 小 块 图 像 ， 提 炼 高 级 特征 进一步 分 析 。 典 型 的 二 维 卷 积 函 数 处 理 图 片 的 大 小 为 3x3、4x4 等 。 


[ 





















































我 们 回顾 一 下 在 图 像 处 理 时 ，CNN 是 如 何 处 理 二 维 数组 的 。 如 图 


卷 积 计算 池 化 卷 积 计算 池 化 全 连接 ”全 连接 ”输出 结果 













dog (0.01) 

cat (0.04) 
boat (0.94) 
bird (0.02) 





图 6-10 CNN 处 理 图 像 数据 的 过 程 














一 维 的 卷 积 函数 处 理 文本 片段 ， 提 炼 高 级 特征 进一步 分 析 [] ( 见 图 6-11) 。 典 型 的 一 维 卷 积 函数 处 理 文本 片段 的 大 小 为 3、4、5 等 。 























同样 的 原理 ， 我 们 可 以 使 





n 9 1 日 
2 站 的 矩阵 卷 积 处 理 该 矩阵 结果 池 化 生 分 类 经 条 


图 6-11 CNN 处 理 文本 数据 的 过 程 
要 感谢 Yoon Kim 的 经 典 论文 《Convolutional Neural Networks for Sentence Classifi-cation》。 


言 归 正 传 ， 特 征 提取 使 用 词汇 表 模 型 ， 算 法 使 用 CNN， 完 整 的 处 理 流程 如 图 6-12 所 示 。 
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1) 将 Enron -Spam 数 据 集 的 文件 提取 词汇 表 。 


2) 随机 划分 为 训练 集 和 测试 集 。 


3) 使 用 CNN 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 
4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 
5) 验证 CNN 算 法 预测 效果 。 


将 数据 集合 随机 分 配 成 训练 集合 和 测试 集合 ， 其 中 测试 集合 比例 为 40%: 





Xr y=get features by tf() 
x train, x test, y train, y test = train test split(x, y, test size = 0.4, random state = 0) 





将 训练 和 测试 数据 进行 填充 和 转换 ， 不 到 最 大 长 度 的 数据 填充 0， 由 于 是 二 分 类 问题 ， 把 标记 数据 二 值 化 。 定 义 输入 参数 的 最 大 长 度 为 文档 的 最 大 长 度 : 





trainX = Pad_sequences (trainX, maxlen=max _ document length, value=0.) 
testX = pad sequences (testX, maxlen=max document length, value=0.) 

# Converting labels to binary vectors 

trainY = to categorical (trainY, nb classes=2) 

testY = to categorical (testY, nb _ classes=2) 

network = input _ data (shape=[None,max document length], name="'input') 





定义 CNN 模 型 ， 其 实 使 用 3 个 数量 为 128 核 ， 长 度 分 别 为 3、4、5 的 一 维 卷 积 函数 处 理 数 据 : 





network = tflearn.embedding (network, input dim=1000000, output dim=128) 

branchl = conv ld(network, 128, 3, padding='valid', activation='relu', regularizer="L2") 
branch2 = conv_1d (network, 128, 4, padding='valid', activation='relu', regularizer="L2") 
branch3 = conv ld(network, 128, 5, padding='valid', activation='relu', regularizer="L2") 
network = merge ([branchl, branch2, branch3], mode='concat', axis=1) 

network = tf.expand dims (network, 2) 

network = global max pool (network) 

network = dropout (network, 0.8) 

network = fully connected (network, 2, activation='softmax') 

network = regression (network, optimizer='adam', learning rate=0.001, 


loss='categorical crossentropy', name='target') 





实例 化 CNN 对 象 并 进行 训练 数据 ， 一 共 训 练 5 轮 : 





model = tflearn.DNN (network, tensorboard verbose=0) 

model .fit (trainx, trainYy, 
n epoch=5, shuffle=True, validation set=(testX, testY), 
show metric=True, batch size=100,run id="spam") 





CNN 的 结构 如 图 6-13 所 示 。 








图 6-13 ”处 理 垃圾 邮件 的 CNN 结 构图 


在 笔者 的 mac 本 上 运行 了 近 3 个 小 时 后 ， 对 测试 数据 集 的 识别 准确 度 达 到 了 令 人 满意 的 98.30%: 





Training Step: 680 | total loss: 0.01691 | time: 2357.838s 
| Adam | epoch: 005 | loss: 0.01691 - acc: 0.9992 | val loss: 0.05177 - val acc: 0.9830 -- iter: 13524/13524 





[1] http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/ 


6.3.5 ”深度 学 习 算法 之 RNN 











RNN 由 于 特殊 的 结构 ， 可 以 使 用 以 前 的 记忆 协助 分 析 当 前 的 数据 ， 这 点 非常 适合 语言 文本 相关 任务 的 处 理 ， 因 此 在 NLP 等 领域 使 用 广泛 。 






































特征 提取 使 用 词汇 表 模 型 ， 算 法 使 用 INN， 完 整 的 处 理 流程 如 图 6-14 所 示 。 
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1) 将 Enron -Spam 数 据 集 的 文件 提取 词汇 表 。 


2) 随机 划分 为 训练 集 和 测试 集 。 








3) 使 用 RNN 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 


5) 验证 RNN 算 法 预测 效果 。 





将 数据 集合 随机 分 配 成 训练 集合 和 测试 集合 ， 其 中 测试 集合 比例 为 40% : 





x, Y=-get_features_by tf() 
x train, x test, y train, y test = train test split(x, y, test size = 0.4, random state = 0) 





将 训练 和 测试 数据 进行 填充 和 转换 ， 不 到 最 大 长 度 的 数据 填充 0， 由 于 是 二 分 类 问题 ， 把 标记 数据 二 值 化 。 定 义 输入 参数 的 最 大 长 度 为 文档 的 最 大 长 度 : 





trainx = pad_sequences (trainX, maxlen=max document length, value=0.) 
testX = pad_ sequences (testX, maxlen=max document length, value=0.) 

# Converting labels to binary vectors 

trainY = to categorical (trainY, nb classes=2) 

testY = to categorical (testY, nb classes=2) 

network = input data(shape=[None,max document length], name='input') 

















定义 RNN 结 构 ， 使 用 最 简单 的 单 层 LSTM 结 构 : 

















# Network building 





net = tflearn.input data([None，max document length]) 

net = tflearn.embedding (net, input dim=1024000, output dim=128) 

net = tflearn.lstm(net, 128, dropout=0.8) 

net = tflearn.fully connected (net, 2, activation='softmax') 

net = tflearn.regression (net, optimizer='adam', learning rate=0.001, 


loss='categorical crossentropy') 





实例 化 RNN 对 象 并 进行 训练 数据 ， 一 共 训练 5 轮 : 





# Training 

model = tflearn.DNN (net, tensorboard verbose=0) 

model .fit (trainx, trainYy, validation set= (testX, testY) ， show metric=True, 
batch size=10, run id="spm-run",n epoch=5) 








RNN 的 结构 如 图 6-15 所 示 。 


Training_step 
oopioy moving_avg |-* :Adm 





图 6-15 ”处 理 垃圾 邮件 的 RNN 结 构图 


在 笔者 的 mac 本 上 运行 了 近 3 个 小 时 后 ， 对 测试 数据 集 的 识别 准确 度 达到 了 尚 可 的 94.88%。 


6.4 ”本 章 小 结 


本 章 以 Enron-Spam 数 据 集 为 训练 和 测试 数据 集 ， 介 绍 了 常见 的 垃圾 邮件 识别 方法 ,介绍 了 3 种 特征 提取 方式 ,分别 是 词 袋 模 型 、TF-1DF 模 型 和 词汇 表 模型 ， 其 中 词汇 表 模 型 后 来 发 展 成 了 word2ver 模 
型 ， 这 将 在 后 面 章节 具体 介绍 。 

本 章 介绍 了 常见 的 垃圾 邮件 分 类 算法 ， 包 括 朴素 贝 叶 斯 算法 、 支 持 向 量 机 算法 以 及 深度 学 习 的 3 种 算法 ， 其 中 CNN 和 MLP 算 法 的 识别 率 达到 了 令 人 满意 的 98% 以 上 。 值 得 一 提 的 是 ， 在 朴素 贝 叶 斯 的 实 
验 中 我 们 发 现 ， 并 非 词 袋 抽取 的 单词 个 数 越 多 ， 垃 圾 邮件 识别 概率 越 大 ， 而 是 有 个 中 间 点 可 以 达到 | 效果 最 佳 ， 并 且 TF-IDF 结 合 词 袋 模型 会 提升 检测 能 力 ， 后 面 章 节 我 们 都 会 结合 两 者 使 用 。 


以 上 提 到 的 各 种 方法 基本 都 有 大 量 参数 可 以 调 优 ， 比 如 神经 网 络 的 层 数 ， 取 样 的 文本 长 度 等 ， 由 于 篇 幅 有 限 不 一 一 歼 述 。 另 外 ， 针 对 英文 环境 ， 在 特征 提取 环节 还 有 调 优 空间 ， 比 如 动词 的 不 同时 态 、 
名 词 的 单 复数 的 归 一 化 处 理 ， 常 用 的 停顿 词 诸如 the 的 处 理 等 。 





提 到 负面 评论 ， 我 们 首先 要 谈 谈 水 军 。 顾 名 思 义 ， 水 军 是 指 在 论坛 大 量 灌水 的 人 员 ， 他 们 受 雇 于 网 络 公关 公司 ， 以 发 帖 回帖 为 主要 手段 ， 是 为 雇主 进行 网 络 造势 的 网 络 人 员 ( 见 图 7-1) ， 有 专职 和 兼职 
之 分 。 一 般 来 讲 ， 发 帖 回 帖 造 势 常常 需要 成 百 上 干 个 人 共同 完成 ， 那 些 临时 在 网 上 征集 来 的 发 帖 的 人 在 行内 被 叫做 “网 络 水 军 ”[【1]。2009 年 12 月 央视 报道 网 络 水 军 这 一 新 兴 现 象 之 后 ， 受 到 社会 广泛 关注 , 
不 少 长 期 在 线 的 网 虫 们 纷纷 加 入 网 络 水 军 一 族 。 水 军 的 大 行 其 道 ， 严 重 影响 了 社会 与 论 ， 尤 其 是 有 组 织 地 针对 公众 人 物 、 企 业 的 诽谤 和 攻击 行为 ， 造 成 严重 的 社会 影响 。 大 型 的 社交 媒体 以 及 知名 论坛 ， 早 
期 都 需要 雇佣 大 量 的 运营 支撑 人 员 来 人 工 鉴别 处 理 。 是 否 可 以 使 用 机 器 学 习 的 技术 来 达到 一 定 程度 的 自动 化 识别 负面 评论 呢 ? 我 们 利用 垃圾 邮件 识别 的 技术 积累 ， 尝 试 来 完成 这 一 任务 。 











这 水 势 也 太 猛 了 ! 


图 7-1 网 络 水 军 


本 章 主 要 以 IMDB 数据 集 为 例 介绍 负面 评论 的 识别 技术 。 介 绍 识别 负面 评论 使 用 的 数据 集 以 及 使 用 的 特征 提取 方法 ， 包 括 词 袋 和 TF-IDF 模 型 、 词 汇 表 模 型 、Word2Vec 和 Doc2Vec 模 型 。 介 绍 使 用 的 模 
型 以 及 对 应 的 验证 结果 ， 包 括 朴素 贝 叶 斯 、 支 持 向 量 机 和 深度 学 习 。 


本 章 演示 代码 请 参考 本 书 GitHub 上 的 review.py 文 件 。 


[1] http://politics.people.com.cn/n/2013/0904/c70731-22804331.html 


7.1 数据 集 


测试 数据 来 自 互联 网 电影 资料 库 (Internet Movie Database，IMDB) ，IMDB 是 一 个 关于 电影 演员 、 电 影 、 电 视 节目 、 电 视 明 星 和 电影 制作 的 在 线 数据 库 。IMDB 另 一 受 欢 迎 的 特色 是 其 对 应 每 个 数 
据 库 条 目 ， 有 47 个 主要 板块 的 留言 板 系统 。 注 册 用 户 可 以 在 这 些 留 言 板 上 分 享 和 讨论 关于 电影 ， 演 员 ， 导 演 的 消息 。 至 今 已 有 超过 600 万 注册 用 户 使 用 过 留言 板 。 我 们 使 用 标注 为 正面 评论 和 负面 评论 的 留 
言 板 数据 。 












































整个 数据 集 一 共 10 万 条 记录 ，5 万 做 了 标记 ，5 万 没有 做 标记 。5 万 做 了 标记 的 数据 集合 被 随机 分 配 成 了 训练 数据 集 和 测试 数据 集 。 


IMDB 文件 夹 下 一 级 目录 主要 包含 训练 数据 集 和 测试 数据 集 两 个 文件 来 ， 如 图 7-2 所 示 。 





加 acllimdb 


imdbEr.txt 





图 7-2 IMDB 一 级 文件 夹 结构 


以 训练 数据 集 为 例 ， IMDB 二 级 目录 下 主要 包含 3 个 目录 ， 分 别 为 正面 评论 、 负 面 评论 和 未 标识 ， 如 图 7-3 所 示 。 





以 正面 评论 为 例 IMDB 三 级 目录 下 为 评论 文件 ， 每 个 评论 以 单独 文件 形式 保存 ， 如 图 7-4 所 示 。 











至 | 四 |'o| 杆 *j[ 头 ~]| 让 





unsupBow,.feat 





图 7-3 IMDB 二 级 文件 夹 结构 


国 | 硅 [wha 


昌 我 的 所 有 文件 
从 应 用 程序 
加 文稿 
TR 
设备 
@ 远程 光盘 
共享 的 
八 所 有 .. 


@ 红色 





图 7-4 IMDB 三 级 文件 夹 结 构 


评论 文件 记载 了 原始 的 评论 内 容 ， 如 图 7-5 所 示 。 





B02.txt ~ 
Once again Mr. Costner has dragged out a movie for far Longer than necessary. Aside from 
the terrific sea rescue sequences, of which there are very few I just did not care about 
any of the characters. Most of us have ghosts in the closet, and Costner's character are 
realized early on, and then forgotten until much later, by which time I did not care. The 
character we should really care about is a very cocky, overconfident Ashton Kutcher. The 
problem is he comes off as kid who thinks he's better than anyone else around him and 





shows no signs of a cluttered closet. His only obstacle appears to be winning over 
Costner. Finally when we are well past the half way point of this stinker, Costner tells 
us all about Kutcher's ghosts. We are told why Kutcher is driven to be the best with no 
prior inkling or foreshadowing. No magic here, it was all I could do to keep from turning 
it off an hour in。 





图 7-5 IMDB 评论 文件 内 容 


IMDB 数据 的 下 载 地 址 为 : http://ai.stanford.edu/~amaas/data/sentiment/ ( 见 图 7-6) 





和 人 CGOaistanford.edu/~amaasjdata/sentiment/ 


Large Movie Review Dataset 


This is a dataset for binary sentiment classification containing substantially more data than previous 
benchmark datasets. We provide a set of 25,000 highly polar movie reviews for training, and 25,000 for 
testing. There is additional unlabeled data for use as well. Raw text and already processed bag of words 
formats are provided. See the README file contained in the release for more details. 


Large Movie Review Dataset v1. 


When using this dataset, please cite our ACL 2011 paper [bib]. 


Contact 


For comments or questions on the dataset please contact Andrew Maas. As you publish papers using the 
dataset please notify us so we can post a link on this page. 


Publications Using the Dataset 


Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. 
(2011). Learning Word V' for Sentiment Analysis. The 49th Annual Meeting of the Association for 
Computational Linguistics (ACL 2011). 





图 7-6 IMDB 数据 集 下 载 主页 


7.2 ”特征 提取 
7.2.1 词 袋 和 TF-IDF 模 型 


我 们 使 用 最 常见 的 词 袋 模型 提取 文件 特征 。 


把 一 个 评论 文件 作为 一 个 完整 的 字符 串 处 理 ， 定 义 函 数 load_one file 加 载 文件 到 一 个 字符 串 变 量 中 返回 





with open (filename) as f: 
for line in f: 
line=line.strip('\n') 
line = line.strip('\r') 
x+=line 
return x 





遍历 目录 ， 加 载 目录 下 全 部 文件 ， 以 字符 串 集合 的 形式 返回 : 





def load files from dir(rootdir): 
x=[] 
list = os.listdir (rootdir) 
for i in range(0, len(list)): 
path = os.path.join (rootdir, list[i]) 
if os.path.isfile (path): 
Vv=l0ad one file (path) 
x.append (v) 
return x 





分 别 加 载 训练 数据 集 目录 下 的 正面 评论 和 负面 评论 目录 下 全 部 文件 ， 同 时 进行 标记 ， 正 面 评论 为 0， 负 面 评 论 为 1 : 





path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/OEBPS/Text/../data/review/aclImdb/train/pos/" 
Print "Load %s" $% path 

x train=load files from dir (path) 

y_train=[0]*Ten (x train) 

path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/OEBPS/Text/../data/review/aclIimdb/train/neg/" 
Print "Load %s" % path 

tmp=load files from dir (path) 

y_traint=[1]*len (tmp) 

x_ traint=tmp 





分 别 加 载 测试 数据 集 目录 下 的 正面 评论 和 负面 评论 目录 下 全 部 文件 ， 同 时 进行 标记 ， 正 面 评论 为 0， 负 面 评 论 为 1 : 





path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/OEBPSVText/../data/review/aclImdb/test/Pos/" 
Print "Load %s" % path 
x test=load files from dir (path) 


y_test=[0]*len (x test) 

path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/test/neg/" 
Print "Load %s" $% path 加 

tmp=load files _ from dir (Path) 

y_test+=[1]*len (tmp) 

x_ test+=tmp 

















使 用 Scikit-Learn 的 CountVectorizer 对 象 进行 词 袋 化 处 理 ， 同 时 将 抽取 的 词汇 表 保 存 ， 用 于 词 袋 化 测试 数据 集 。 词 汇 表 保存 在 CountVectorizer 对 象 的 vocabulary 属 性 中 ， 初 始 化 CountVectorizer 对 
象 。 非 常 重要 的 几 个 参数 的 含义 为 : 








“ decode_error， 处 理解 码 失 败 的 方式 ， 分 为 “strict” “ignore” 和 “replace”。 
: sttip_accents， 在 预 处 理 步骤 中 移 除 重 音 的 方式 。 


' max_features， 词 袋 特 征 个 数 的 最 大 值 。 





' stop_wotrds， 判 断 word 结 束 的 方式 。 
.max_df，df 最 大 值 。 
' min_df，df 最 小 值 。 


binary， 上 默认 为 False， 当 与 TF-IDF 结 合 使 用 时 需要 设置 为 True。 























本 例 中 处 理 的 数据 集 均 为 英文 ， 所 以 针对 decode_error 直 接 忽 略 , 使 用 ignore 方 式 ，stop_words 的 方式 使 用 english，strip_accents 方 式 为 ascii 方 式 : 





























x train, y train, x test, y test=load all files() 
Vectorizer = CountVectorizer( 
decode error='ignore', 
strip accents="'ascii', 
max features=max features, 
stop_words="'english', 
max df=1.0, 
min df=1 ) 
Print vectorizer 
x train=vectorizer.fit transform(x train) 
x train=x train.toarray () 
vocabulary=vectorizer.vocabulary_ 

















其 中 由 于 设置 了 vocabulary，max_features 的 值 会 被 忽略 : 








vocabulary 对 测试 数据 集 进 行 词 袋 化 处 理 








Vectorizer = CountVectorizer( 
decode error='ignore', 
strip accents='ascii', 
vocabulary=vocabulary, 
stop_words="'english', 
max df=1.0, 
min df=1 ) 

Print vectorizer 

x test=vectorizer.fit transform(x test) 

x test=x test.toarray() 























文本 处 理 领 域 还 有 一 种 特征 提取 方法 ， 叫 做 词 频 与 逆向 文件 频率 (term frequency-inverse document frequency，TF-IDF) 模型 。TF-IDF 是 一 种 统计 方法 ， 用 以 评估 一 字 词 对 于 一 个 文件 集 或 一 个 
语料库 中 的 其 中 一 份 文件 的 重要 程度 。 字 词 的 重要 性 与 它 在 文件 中 出 现 的 次 数 成 正比 ， 但 同时 会 与 它 在 语料库 中 出 现 的 频率 成 反比 。TF-1IDF 与 词 袋 模型 结合 后 可 以 提高 检测 能 力 ， 我 们 使 用 TF-IDF 将 词 袋 模 
型 生成 的 数据 做 进一步 处 理 : 









































transformer = TfidfTransformer (smooth idf=False) 
x train=transformer.fit transform (x_train) 

x train=x train.toarray () 

x_ test=transformer.transform(x test) 

x test=x test.toarray() 





7.2 ”特征 提取 


7.2.1 词 袋 和 和 TF-IDF 模 型 











我 们 使 用 最 常见 的 词 袋 模型 提取 文件 特征 。 











把 一 个 评论 文件 作为 一 个 完整 的 字符 串 处 理 ， 定 义 函 数 load_one file 加 载 文件 到 一 个 字符 串 变 量 中 返回 : 














def load one file (filename) : 
nm 
with open (filename) as f: 
for line in f: 

line=line.strip('\n') 
line = line.strip('\r') 
x+=line 

return x 








遍历 目录 ， 加 载 目录 下 全 部 文件 ， 以 字符 串 集合 的 形式 返回 : 


def load files from dir(rootdir): 
x=[] 
list = os.listdir (rootdir) 
for i in range(0, len(list)): 
path = os.path.join (rootdir, list[i]) 
if os.path.isfile (path): 
Vv=l0ad one file (path) 
x.append (v) 
return x 





分 别 加 载 训练 数据 集 目录 下 的 正面 评论 和 负面 评论 目录 下 全 部 文件 ， 同 时 进行 标记 ， 正 面 评论 为 0， 负 面 评 论 为 1 : 





path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/train/pos/" 
print "Load %s" % path 


x train=load files _ from dir (path) 

ytrain=[0]*Ten (x train) 

path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/train/neg/" 
Print "Load %s" $% path 

tmp=load files from dir (path) 

y traint=[1]*1en (tmp) 

x train+=tmp 


分 别 加 载 测试 数据 集 目录 下 的 正面 评论 和 负面 评论 目录 下 全 部 文件 ， 同 时 进行 标记 ， 正 面 评论 为 0， 负 面 评 论 为 1 : 





path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/test/pos/" 
print "Load %s" % path 

x test=load files from dir (path) 

yY_test=[0]*Ien(x test) 

path="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/test/neg/" 
print "Load %s" % path 

tmp=load files from dir (path) 

y test+=[1]*len (tmp) 

X_test+=tmp 














使 用 Scikit-Learn 的 CountVectorizer 对 象 进 行 词 袋 化 处 理 ， 同 时 将 抽取 的 词汇 表 保存 ， 用 于 词 袋 化 测试 数据 集 。 词 汇 表 保 存在 CountVectorizer 对 象 的 vocabulary 属 性 中 ， 初 始 化 CountVectorizer 对 
象 。 非 常 重要 的 几 个 参数 的 含义 为 : 











“ decode_error， 处 理解 码 失 败 的 方式 ， 分 为 “strict” “ignore” 和 “replace”。 
“strip_accents， 在 预 处 理 步骤 中 移 除 重音 的 方式 。 


* max_features， 词 袋 特征 个 数 的 最 大 值 。 





“stop_words ， 判 断 word 结 束 的 方式 。 
' max_df，df 最 大 值 。 
.min_df，df 最 小 值 。 


binary， 默 认为 False， 当 与 TF-IDF 结 合 使 用 时 需要 设置 为 True。 




















本 例 中 处 理 的 数据 集 均 为 英文 ， 所 以 针对 decode_error 直 接 忽略 ,使 用 ignore 方 式 ，stop_words 的 方式 使 用 english，strip_accents 方 式 为 ascii 方 式 : 





























x train, y train, x test, y test=lo0ad all files() 

vectorizer = CountVectorizer( ee 
decode error='ignore', 
strip accents="'ascii', 
max_features=max feature Sy 
stop words="'english', 
max df=1.0, 
min df=1 ) 

print vectorizer 

x train=vectorizer.fit transform(X train) 

x train=x train.toarray () 

vocabulary=vectorizer.vocabulary_ 


























vocabulary 对 测试 数据 集 进 行 词 袋 化 处 理 ， 其 中 由 于 设置 了 vocabulary，max_features 的 值 会 被 忽略 : 





Vectorizer = CountVectorizer( 
decode error='ignore', 
strip accents="'ascii', 
vocabulary=vocabulary, 
stop words="'english', 
max df=1.0, 
min df=1 ) 

Print vectorizer 

x test=vectorizer.fit transform(x test) 

x test=x test.toarray () 

















文本 处 理 领 域 还 有 一 种 特征 提取 方法 ， 叫 做 词 频 与 逆向 文件 频率 (term frequency-inverse document frequency，TF-IDF) 模型 。TF-IDF 是 一 种 统计 方法 ， 用 以 评估 一 字 词 对 于 一 个 文件 集 或 一 个 
语料库 中 的 其 中 一 份 文件 的 重要 程度 。 字 词 的 重要 性 与 它 在 文件 中 出 现 的 次 数 成 正比 ， 但 同时 会 与 它 在 语料库 中 出 现 的 频率 成 反比 。TF-1DF 与 词 袋 模型 结合 后 可 以 提高 检测 能 力 ， 我 们 使 用 TF-IDF 将 词 袋 模 
型 生成 的 数据 做 进一步 处 理 : 






































transformer = TfidfTransformer (smooth idf=False) 
x train=transformer.fit transform(x train) 

x train=x train.toarray() 六 

x test=transformer.transform(x test) 

x_ test=x test.toarray() 





7.2.2 ”词汇 表 模型 




















词 袋 模型 可 以 很 好 地 表现 文本 由 哪些 单词 组 成 ， 但 是 却 无 法 表达 单词 之 间 的 前 后 关系 ， 于 是 人 们 借鉴 了 词 袋 模型 的 思想 ， 使 用 生成 的 词汇 表 对 原 有 句子 按照 单词 逐个 进行 编码 。 在 本 例 中 ,使 
TensorFlow 的 tflearn.data_utils.VocabularyProcessor 函 数 即 可 : 





























def get features by _ tf() : 

global max document length 

x train, x test, y train, y test=lo0ad all files() 

vp=tflearn.data utils.VocabularyProcessor( 

max document length=max document length, 
~ min frequency=0, a 

vocabulary=None, 
tokenizer fn=None) 

x train=vp.fit transform(x train, unused y=None) 

x train=np.array (list (x train)) 加 

x test=vp.transform(x test) 

x test=np.array (list (x test)) 

return x train, x test, y train, y test 





7.2.3 ”Word2Vec 模 型 和 Doc2Vec 模 型 




















Word2Vec 是 Google 在 2013 年 开源 的 一 款 将 词 表征 为 实数 值 向 量 的 高 效 工 . 
通过 训练 ， 可 以 把 对 文本 内 容 的 处 理 简化 为 K 维 向 量 空间 中 的 向 
聚 类 、 找 同义词 、 词 性 分 析 等 等 [1]。 


INPUT PROJECTION 
w(t—2) 




















， 采 上 
运算 ， 而 向 量 空 间 上 的 相似 
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OUTPUT 


w(t—1) Gn 


w(t) 


w(t+1) 


w(t+2) 
a) CBOW 


的 模型 有 连续 词 袋 (Continuous Bag-Of-Words，CBOW) 模型 和 Skip-Gram 两 种 ， 原 理 
来 表示 文本 语义 上 的 相似 











见 图 7-7。Word2Vec 
来 做 很 多 NLP 相关 的 工作 ， 比 如 






































度 。 因 可 以 被 





此 ，Word2Vec 输 出 的 词 向 








INPUT PROJECTION OUTPUT 
w(t—2) 


w(t—1) 
w(t) 
w(t+1) 


w(t+2) 
b) Skip-gram 


图 7-7 CBOW 和 Skip-gram 原 理 图 





CBOW 模 型 能 够 根据 输入 周转 
人 A 本 身 的 词 向 量 ; 而 Skip-gram 模 型 的 输入 是 词 A 本 身 ， 输 出 是 词 A 周转 





n-1 个 词 来 预测 出 这 个 词 本 身 ， 而 Skip-gram 模 型 能 够 根据 词 本 身 来 预测 周围 
的 n 个 单词 的 词 向 量 [9]。 




















Word2Vec 最 常 











的 开源 实现 之 一 就 是 gensim， 网 址 为 : 


有 哪些 词 。 也 就 是 说 ，CBOW 模 型 的 输入 是 某 个 词 A 周围 的 n 个 单词 的 词 向 量 之 和 ， 输 出 是 词 





http://radimrehurek.com/gensim/ 





gensim 的 安装 非常 简 和 








pip install --upgrade gensim 

















gensim 的 使 用 非常 简洁 ， 加 载 数据 和 训练 数 





居 可 以 合并 ， 训 | 练 好 模型 后 就 可 以 按照 和 





归 词 获取 对 应 的 向 量 表示 : 





sentences = 'sentence'], ['second', 'sentence']] 
model = gensim.models.Word2Vec (sentences, min count=1) 
print model['first'] 


Ebi 








其 中 ，Word2Vec 有 很 多 可 以 影响 训练 速度 和 质量 的 参数 。 参 数 min_count 可 以 对 字典 做 截断 ， 出 现 少 于 min_count 次 数 的 单词 会 被 丢弃 掉 ， 默 认 值 为 5: 





model = Word2Vec (sentences, min count=10) 

















恨 的 重 





另外 一 个 是 神经 网 络 的 隐藏 元 数 ， 推 荐 值 为 几 十 到 几 百 。 导 





model = Word2Vec (sentences, size=200) 


实 上 Word2Vec 参 数 的 个 数 也 与 神经 网 络 的 隐藏 





层 的 单元 数 相同 ， 比 如 size=200， 那 么 训练 得 到 的 Word2Vec 参 数 个 数 也 是 200: 








以 处 理 IMDB 数 据 集 为 例 ， 初 始 化 Word2Vec 对 象 ， 设 置 神经 网 络 的 隐藏 层 的 单元 数 为 200， 生 成 的 词 向 量 的 维度 也 与 神经 网 络 的 隐藏 层 的 和 


的 单词 会 被 丢弃 掉 ， 迭 代 计 算 次 数 为 10 次 ， 同 时 并 发 线程 数 与 当前 计算 机 的 CPU 个 数 相 同 : 








元 数 相同 。 设 置 处 理 的 窗口 大 小 为 8 个 单词 ， 出 现 少 于 10 次 











model=gensim.models .Word2Vec (size=200, window=8, min count=10, iter=10, workers=cores) 














其 中 ， 当 前 计算 机 的 CPU 个 数 可 以 使 








multiprocessing 获 取 : 








cores=multiprocessing.cpu_count () 





创建 字典 并 开始 训练 获取 Word2Vec。gensim 的 官方 文档 中 强调 增加 训练 次 数 可 以 提高 生成 的 Word2Vec 的 质量 ， 可 以 通过 设置 epochs 参 数 来 提高 训练 次 数 ， 默 认 的 训练 次 数 为 5: 





x=x traintx test 
model .build vocab (x) 
model .train (x, total examples=model.corpus count, epochs=model .iter) 














经 过 训练 后 ，Word2Vec 会 以 字典 的 形式 保存 在 model 对 象 中 ， 可 以 使 





























类 似 字典 的 方式 直接 访问 获取 ， 比 如 获取 单词 “love” 的 Word2Vec 就 可 以 使 











如 下 形式 : 














model ["love"] 








Word2Vec 的 维度 与 之 前 设置 的 神经 网 络 的 隐藏 层 的 单元 数 相同 ， 为 200， 即 一 个 长 
应 的 Word2Vec: 





def getVecsByWord2Vec (model, corpus, size): 
x=[] 
for text in corpus: 


vv in enumerate (text): 


xx.append (model [vv] .reshape ( (1, size))) 
except KeyError: 


度 为 200 的 一 维 向 量 。 通 过 遍历 一 段 英文 ， 逐 次 获取 每 个 和 


词 对 应 的 Word2Vec， 连 接 起 来 就 可 以 获得 该 英文 段落 对 





continue 
x = np.concatenate (xx) 
x=np.array (x, dtype="'float') 
return x 














需要 注意 的 是 ， 出 于 性 能 的 考虑 ， 出 现 少 于 10 次 的 单词 会 被 丢弃 掉 ， 所 以 存在 这 种 情况 ， 即 一 部 分 单词 找 不 到 对 应 的 Word2Vec。 需 要 捕捉 这 个 异常 ， 通 常 使 用 python 的 KeyError 异 常 捕捉 即 可 。 

















基于 上 述 的 Word2Vec 的 方法 ，Quoc Le 和 Tomas Mikolov 又 给 出 了 Doc2Vec 的 训练 方法 。 如 图 7-8 所 示 ， 其 原理 与 Word2Vec 相 同 ， 分 为 分 布 式 存储 (Distributed Memory，DM) 和 分 布 式 词 袋 
(Distributed Bag of Words，DBOW) 。 














Classifier on 
-人 Classifier 


Average/Concatenate 





Paragraph Matrix- -----) > 


Paragraph the cat Paragraph 
1d 1 
id 
a) DM b) DBOW 








7-8 DM 和 DBOW 原 理 图 




















以 处 理 IMDB 数 据 集 为 例 ， 初 始 化 Doc2Vec 对 象 ， 设 置 神经 网 络 的 隐藏 层 的 单元 数 为 200， 生 成 的 词 向 量 的 维度 与 神经 网 络 的 隐藏 
词 会 被 丢弃 掉 ， 和 迭代 计算 次 数 为 10 次 ， 同 时 并 发 线程 数 与 当前 计算 机 的 CPU 个 数 相同 : 


的 单元 数 相 同 。 设 置 处 理 的 窗口 大 小 为 8 个 单词 ， 出 现 少 于 10 次 的 单 














model=Doc2Vec (dm=0, dbow words=1, size=max features, window=8, min count=10, iter=10, workers=cores) 





























其 中 ， 需 要 强调 的 是 ，dm 为 使 用 的 算法 ， 默 认为 1， 表 明 使 用 DM 算 法 ; 设置 为 0%， 表 明 使 用 DBOW 算 法 ,通常 使 用 默认 配置 即 可 ， 比 如 : 
































model = gensim.models.Doc2Vec.Doc2Vec (size=50, min count=2, iter=10) 

















与 Word2Vec 不 同 的 地 方 是 ，Doc2Vec 处 理 的 每 个 英文 段落 ， 需 要 使 用 一 个 唯一 的 标识 来 标记 ， 并 且 使 用 一 种 特殊 定义 的 数据 格式 保存 需要 处 理 的 英文 段落 ， 这 种 数据 格式 定义 如 下 : 























SentimentDocument = namedtuple('SentimentDocument', ‘words tags') 








其 中 SentimentDocument 可 以 理解 为 这 种 格式 的 名 称 ， 也 可 以 理解 为 这 种 对 象 的 名 称 ，words 会 保存 英文 段落 ， 并 且 是 以 单词 和 符合 列表 的 形式 保存 ，tags 就 是 我 们 说 的 保存 的 唯一 标识 。 最 简单 的 
一 种 实现 就 是 依次 给 每 个 英文 段落 编号 ， 测 试 数据 集 的 标记 为 “TRAIN 数字” ， 测 试 数据 集 的 标记 为 “TEST 数字 ” : 














def labelizeReviews (reviews, label type) : 
labelized = [] 
for i, Vv in enumerate (reviews): 
label = '%s %s' % (label type, i) 
labelized.append (SentimentDocument (v, [labell])) 
return labelized 


创建 字典 并 开始 训练 获取 Doc2Vec。 与 Word2Vec 的 情况 一 样 ，gensim 的 官方 文档 中 强调 增加 训练 次 数 可 以 提高 生成 的 Doc2Vec 的 质量 ， 可 以 通过 设置 epochs 参 数 来 提高 训练 次 数 ， 默 认 的 训练 次 数 
为 5: 





x=x traintx test 
model .build vocab (x) 
model .train (x, total examples=model.corpus count, epochs=model .iter) 














经 过 训练 后 ，Doc2Vec 会 以 字典 的 形式 保存 在 model 对 象 中 ， 可 以 使 用 类 似 字典 的 方式 直接 访问 获取 ， 比 如 获取 段落 “| love tensorflow” 的 Doc2Vec 就 可 以 使 用 如 下 形式 : 





























model .docvecs[”I love tensorflow”] 




















一 个 典型 的 doc2ver 展 开 为 向 量 形式 ， 内 容 如 下 所 示 ， 为 了 显示 方便 只 展示 了 其 中 一 部 分 维度 的 数据 : 














array([ 0.02664499, 0.00475204, -0.03981256, 0.03796276, -0.03206162, 
0.10963056, -0.04897128, 0.00151982, -0.03258783, 0.04711508, 
-0.00667155, -0.08523653, -0.02975186, 0.00166316, 0.01915652, 
-0.03415785, -0.05794788, 0.05110953, 0.01623618, -0.00512495, 
-0.06385455, -0.0151557 ， 0.00365376, 0.03015811, 0.0229462 ， 
0.03176891, 0.01117626, -0.00743352, 0.02030453，-0.05072152， 
-0.00498496, 0.00151227, 0.06122205, -0.01811385, -0.01715777, 
0.04883198, 0.03925886, -0.03568915, 0.00805744, 0.01654406, 
-0.05160677, 0.0119908 ，-0.01527433， 0.02209963, -0.10316766, 
-0.01069367, -0.02432527, 0.00761799, 0.02763799, -0.04288232], 


dtype=float32) 





Doc2Vec 的 维度 与 之 前 设置 的 神经 网 络 的 隐藏 层 的 单元 数 相同 ， 为 200， 即 一 个 长 度 为 200 的 一 维 向 量 。 以 英文 段落 为 单位 ， 通 过 遍历 训练 数据 集 和 测试 数据 集 ， 逐 次 获取 每 个 英文 段落 对 应 的 
Doc2Vec， 这 里 的 英文 段落 就 可 以 理解 为 数据 集中 针对 电影 的 一 段 评价 : 








def getVecs (model, corpus, size): 
vecs = [np.array (model .docvecs[z.tags[0]]) .reshape((1l, size)) for z in corpus] 
return np.array (np.concatenate (vecs) ,dtype="'float') 


训练 Word2Vec 和 Doc2Vec 是 非常 费时 费力 的 过 程 ， 调 试 阶段 会 频繁 更 换 分 类 算法 以 及 修改 分 类 算法 参数 调 优 。 为 了 提高 效率 ， 可 以 把 之 前 训练 得 到 的 Word2Vec 和 Doc2Vec 模 型 保存 成 文件 形式 ， 以 








Doc2Vec 为 例 ， 使 用 model.save 函 数 把 训练 后 的 结果 保存 在 本 地 硬盘 上 ， 运 行程 序 时 ， 在 初始 化 Doc2Vec 对 象 之 前 ， 可 以 先 判断 本 地 硬盘 是 否 存在 模型 文件 ， 如 果 存 在 就 直接 读 取 模型 文件 并 初始 化 
Doc2Vec 对 象 ， 反 之 则 需要 训练 数据 : 

















if os.path.exists (doc2ver bin): 
Print "Find cache file %s" % doc2ver bin 
model=Doc2Vec.1o0ad (doc2ver bin) 
else: 
model=Doc2Vec (size=max features, window=5, min count=2, workers=cores, iter=40) 
model.build vocab(x)) a 
model .train (x, total examples=model .corpus count, epochs=model .iter) 
model .save (doc2ver bin) 


[1] http://blog.csdn.net/mytestmy/article/details/26969149 
[2] http://blog.csdn.net/u014595019/article/details/51884529 


7.3 ”模型 训练 与 验证 


7.3.1 朴素 贝 叶 斯 算法 

















使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 模型 ， 完 整 的 处 理 流程 如 图 7-9 所 示 。 
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图 7-9 ”特征 提取 使 用 词 袋 的 朴素 贝 叶 斯 算法 处 理 流 程 


将 IMDB 数据 集 的 文件 提取 词 袋 。 


2) 根据 IMDB 的 训练 数据 文件 夹 和 测试 数据 文件 来 将 词 袋 化 的 数据 划分 为 训练 集 和 测试 集 。 














3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





w 


验证 朴素 贝 叶 斯 算法 预测 效果 。 























实例 化 朴素 贝 叶 斯 算法 ， 使 用 训练 数据 集训 练 ， 针 对 测试 数据 集 预测 : 











gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 











在 词 袋 最 大 特征 数 为 5000 的 情况 下 ， 仅 使 用 词 袋 模 型 时 ， 整 个 系统 准确 度 为 68.64%，TP、FP、TN、FN 和 矩阵 见 表 7-1。 














表 7-1 基于 词 袋 模型 的 朴素 贝 叶 斯 验证 结果 






仔 索 到 
未 检索 到 






完整 输出 结果 为 : 





CountVectorizer (analyzer=u'word', binary=False, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=None, min df=1, 
ngram range=(1, 1), preprocessor=None, stop words="'english', 
strip accents="'ascii', token pattern=u' (3?0)\b\\w\\wt\\b', 
tokenizer=None, 

NB and wordbag 


0.6864 
[[ 6255 6245] 
[ 1595 10905]] 




















使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 科 TF&IDF 模 型 ， 完 整 的 处 理 流程 如 图 7-10 所 示 。 
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图 7-10 “特征 提取 使 用 词 袋 和 TF-IDE 模 型 的 朴素 贝 叶 斯 算法 处 理 流程 


1) 将 IMDB 数据 集 的 文件 提取 词 袋 。 








2) 使 用 TF-IDF 处 理 。 


3) 根据 IMDB 的 训练 数据 文件 夹 和 测试 数据 文件 夹 将 数据 集 划分 为 训练 集 和 测试 集 。 











4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








6) 验证 朴素 贝 叶 斯 算法 预测 效果 。 











在 词 袋 最 大 特征 数 为 5000 的 情况 下 ， 同 时 使 用 词 袋 和 TF-IDF 模 型 时 ， 整 个 系统 准确 度 约 为 75.89%，TP、FP、TN、FN 和 矩 阵 见 表 7-2。 














表 7-2 ”基于 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 不 相 关 


检索 到 3837 
未 检索 到 10309 





完整 输出 结果 为 : 





CountVectorizer (analyzer=u'word', binary=False, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=None, min df=1, 
ngram range=(1, 1), preprocessor=None, stop words='english', 
strip accents="'ascii', token pattern=u' (30) \b\\w\\wt\\b', 
tokenizer=None, 

NB and wordbag&TF-IDF 

0.75888 

[[ 8663 3837] 

[ 2191 10309]] 

















使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 Doc2Vec 模 型 ， 完 整 的 处 理 流程 如 图 7-11 所 示 。 
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图 7-11 特征 提取 使 用 Doc2Vec 模 型 的 朴素 贝 叶 斯 算法 处 理 流程 
1) 将 IMDB 数据 集 的 文件 获取 Doc2Vec 模 型 。 


2) 根据 IMDB 的 训练 数据 文件 夹 和 测试 数据 文件 夹 将 Doc2Vec 模 型 的 数据 划分 为 训练 集 和 测试 集 。 














3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








5) 验证 朴素 贝 叶 斯 算法 预测 效果 。 








在 使 用 Doc2Vec 模 型 时 ， 整 个 系统 准确 度 约 为 77.90%，TP、FP、TN、FN 和 矩阵 见 表 7-3。 

















表 7-3 ”基于 Doc2Vec 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 不 相 关 


检索 到 
未 检索 到 10268 





完整 输出 结果 为 : 


Load http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/train/pos/ 
Load http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/train/neg/ 
Load http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/test/pos/ 
Load http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/test/neg/ 
NB and Doc2Vec 

0.77904 

[[ 9208 3292] 

[ 2232 10268]] 





7.3 ”模型 训练 与 验证 


7.3.1 朴素 贝 叶 斯 算法 


























使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 模型 ， 完 整 的 处 理 流程 如 图 7-9 所 示 。 
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图 7-9 ”特征 提取 使 用 词 袋 的 朴素 贝 叶 斯 算法 处 理 流 程 


将 IMDB 数据 集 的 文件 提取 词 袋 。 


2) 根据 IMDB 的 训练 数据 文件 夹 和 测试 数据 文件 来 将 词 袋 化 的 数据 划分 为 训练 集 和 测试 集 。 














3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





w 


验证 朴素 贝 叶 斯 算法 预测 效果 。 























实例 化 朴素 贝 叶 斯 算法 ， 使 用 训练 数据 集训 练 ， 针 对 测试 数据 集 预测 : 











gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 











在 词 袋 最 大 特征 数 为 5000 的 情况 下 ， 仅 使 用 词 袋 模 型 时 ， 整 个 系统 准确 度 为 68.64%，TP、FP、TN、FN 和 矩阵 见 表 7-1。 














表 7-1 基于 词 袋 模型 的 朴素 贝 叶 斯 验证 结果 






仔 索 到 
未 检索 到 






完整 输出 结果 为 : 





CountVectorizer (analyzer=u'word', binary=False, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=None, min df=1, 
ngram range=(1, 1), preprocessor=None, stop words="'english', 
strip accents="'ascii', token pattern=u' (3?0)\b\\w\\wt\\b', 
tokenizer=None, 

NB and wordbag 


0.6864 
[[ 6255 6245] 
[ 1595 10905]] 




















使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 科 TF&IDF 模 型 ， 完 整 的 处 理 流程 如 图 7-10 所 示 。 
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图 7-10 “特征 提取 使 用 词 袋 和 TF-IDE 模 型 的 朴素 贝 叶 斯 算法 处 理 流程 


1) 将 IMDB 数据 集 的 文件 提取 词 袋 。 








2) 使 用 TF-IDF 处 理 。 


3) 根据 IMDB 的 训练 数据 文件 夹 和 测试 数据 文件 夹 将 数据 集 划分 为 训练 集 和 测试 集 。 











4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








6) 验证 朴素 贝 叶 斯 算法 预测 效果 。 











在 词 袋 最 大 特征 数 为 5000 的 情况 下 ， 同 时 使 用 词 袋 和 TF-IDF 模 型 时 ， 整 个 系统 准确 度 约 为 75.89%，TP、FP、TN、FN 和 矩 阵 见 表 7-2。 














表 7-2 ”基于 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 不 相 关 


检索 到 3837 
未 检索 到 10309 





完整 输出 结果 为 : 





CountVectorizer (analyzer=u'word', binary=False, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=None, min df=1, 
ngram range=(1, 1), preprocessor=None, stop words='english', 
strip accents="'ascii', token pattern=u' (30) \b\\w\\wt\\b', 
tokenizer=None, 

NB and wordbag&TF-IDF 

0.75888 

[[ 8663 3837] 

[ 2191 10309]] 

















使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 Doc2Vec 模 型 ， 完 整 的 处 理 流程 如 图 7-11 所 示 。 

















IMDB 训 | 练 IMDB 测试 


获取 Doc2Vec 
模型 


训练 集 


朴素 贝 叶 斯 
算法 训练 


娄 朱 验证 2 





图 7-11 特征 提取 使 用 Doc2Vec 模 型 的 朴素 贝 叶 斯 算法 处 理 流程 
1) 将 IMDB 数据 集 的 文件 获取 Doc2Vec 模 型 。 


2) 根据 IMDB 的 训练 数据 文件 夹 和 测试 数据 文件 夹 将 Doc2Vec 模 型 的 数据 划分 为 训练 集 和 测试 集 。 














3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








5) 验证 朴素 贝 叶 斯 算法 预测 效果 。 








在 使 用 Doc2Vec 模 型 时 ， 整 个 系统 准确 度 约 为 77.90%，TP、FP、TN、FN 和 矩阵 见 表 7-3。 

















表 7-3 ”基于 Doc2Vec 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 不 相 关 


检索 到 
未 检索 到 10268 





完整 输出 结果 为 : 


Load http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/train/pos/ 
Load http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/train/neg/ 
Load http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/test/pos/ 
Load http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/review/aclImdb/test/neg/ 
NB and Doc2Vec 

0.77904 

[[ 9208 3292] 

[ 2232 10268]] 





7.3.2 ”支持 向 量 机 算法 





























使 用 支持 向 量 机 算法 ， 特 征 提取 使 用 词 袋 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 7-12 所 示 。 





IMDB 训练 IMDB 测试 
数据 数据 


TF-IDF 处 理 
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图 7-12 ”特征 提取 使 用 词 袋 和 TF-IDE 模 型 的 支持 向 量 机 算法 处 理 流 程 


1) 将 IMDB 数据 集 的 文件 提取 词 袋 。 








2) 使 用 TF-IDF 处 理 。 





居 IM DB 的 训练 数据 文件 夹 和 测试 数据 文件 夹 将 词 袋 化 的 数据 划分 为 训练 集 和 测试 集 。 


Wu 
一 
EE 
型 
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4) 使 用 支持 向 量 机 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 




















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





6) 验证 支持 向 量 机 算法 预测 效果 。 





























实例 化 支持 向 量 机 算法 ， 使 用 训练 数据 集训 练 ， 针 对 测试 数据 集 预测 : 





clf = svm.SVC() 
clf.fit (x train, y train) 
y_pred = clf.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





prin 七 metrics.accuracy scorel(y test, y _pred) 
prin t metrics.confusion matrix(y test, y pred) 














在 词 袋 最 大 特征 数 为 5000 且 同时 使 用 TF-IDF 模 型 的 情况 下 ， 整 个 系统 准确 度 为 79.70%，TP、FP、TN、FN 和 矩 阵 见 表 7-4。 











表 7-4 基于 词 袋 和 TF-IDF 模 型 的 支持 向 量 机 验证 结果 


不 相 关 
2803 


类 型 名 称 
全 索 到 


未 检索 到 10229 





完整 输出 结果 为 : 





CountVectorizer (analyzer=u'word', binary=False, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=None, min df=]1, 
ngram range=(1, 1), preprocessor=None, stop words="english', 
strip accents="'ascii', token pattern=u' (30) \b\\w\\wt\\b', 
tokenizer=None, 

SVM and wordbag&TF-IDF 

0.79704 

[[ 9697 2803] 

[ 2271 10229]] 





7.3.3 ”深度 学 习 算法 之 MLP 



































使 用 MLP 算 法 ， 隐 含 层 设计 为 2 层 ， 每 次 节点 数 分 别 为 5 和 和 2， 特 征 提取 使 用 词 袋 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 7-13 所 示 。 
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1) 将 IMDB 数据 集 的 文件 提取 词 袋 。 








2) 使 用 TF-IDF 处 理 。 








3) 根据 IMDB 的 训练 数据 文件 夹 和 测试 数据 文件 夹 将 词 袋 化 的 数据 划分 为 训练 集 和 测试 集 。 








4) 使 用 MLP 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








6) 验证 MLP 算 法 预测 效果 。 











实例 化 MLP 算 法 ， 使 用 训练 数据 集训 练 ， 针 对 测试 数据 集 预 测 : 














clf = MLPClassifier (solver="'lbfgs', 
alpha=le-5, 
hidden layer sizes = (5, 2), 
random state = 1) 

print, GIF 

clf.fit (x train, y train) 

y_pred = clf.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 

















在 词 袋 最 大 特征 数 为 5000 且 同时 使 用 TF-1IDF 模 型 的 情况 下 ， 整 个 系统 准确 度 为 87.06%，TP、FP、TN、FN 和 矩 阵 见 表 7-5。 








表 7-5 基于 词 袋 和 TF-IDF 模 型 的 MLP 验 证 结果 


类 型 名 称 不 相 关 
仿 索 到 


未 检索 到 


1592 


10857 





完整 输出 结果 为 : 





MLP and wordbag 

MLPClassifier (activation='relu', alpha=le-05, batch size='auto', beta 1=0.9, 
beta 2=0.999, early stopping=False, epsilon=le-08, 
hidden layer sizes=(5, 2), learning rate='constant', 
learning rate init=0.001, max iter=200, momentum=0.9, 
nesterovs momentum=True, power t=0.5, random state=1, shuffle=True, 
solver='lbfgs', tol=0.0001, validation fraction=0.1, verbose=False, 
warm start=False) 加 

0.8706 

[[10908 1592] 

[ 1643 10857]] 





7.3.4 深度 学 习 算法 之 CNN 














哆 | 


使 用 CNN 算 法 ， 特 征 提取 使 用 词汇 表 模 型 ， 完 整 的 处 理 流程 如 








7-14 所 示 。 











1) 将 IMDB 数据 集 的 文件 提取 词汇 表 。 


2) 根据 IMDB 的 训练 数据 文件 夹 和 测试 数据 文件 来 将 数据 集 划 分 为 训练 集 和 测试 集 。 











3) 使 用 CNN 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 








4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








5) 验证 CNN 算 法 预测 效果 。 

















使 用 词汇 表 编 码 后 的 数据 ， 获 得 训练 数据 集 和 测试 数据 集 : 








x tr ain, x test, y train, y test=get features by tf() 





将 训练 和 测试 数据 进行 填充 和 转换 ， 不 到 最 大 长 度 的 数据 填充 0， 由 于 是 二 分 类 问题 ， 把 标记 数据 二 值 化 。 定 义 输入 参数 的 最 大 长 度 为 文档 的 最 大 长 度 : 





trainX = pad sequences (trainX，maxlen=max document length, value=0.) 
testX = pad_sequences (testX, maxlen=max document length, value=0.) 

# Converting labels to binary vectors 

trainY = to categorical (trainyY, nb classes=2) 

testY = to categorical (testY, nb classes=2) 

network = Input_gata (shape=[None,max_document length] 7 name="'input') 





IMDB 训练 


CNN 算 法 训练 








殉 





7-14 ”特征 提取 使 用 词汇 表 的 CNN 算 法 处 理 流程 








定义 CNN 模 型 ， 使 用 3 个 数量 为 128 核 ， 长 度 分 别 为 3、4、5 的 一 维 卷 积 函数 处 理 数据 : 





network 
branchl 
branch2 
branch3 
network 
network 
network 
network 
network 
network 


tflearn.embedding (network, input dim=1000000, output dim=128) 
conv_1d (network, 128, 3, padding="'valid', activation='relu', regularize: L2™ 
conv_ ld(network, 128, 4, padding='valid', activation='relu', regularize: L2™ 
conv_1d (network, 128, 5, padding='valid', activation='relu', regularizer="L2" 
merge ( [branchl, branch2, branch3], mode='concat', axis=1) 
tf.expand dims (network, 2) 
global max pool (network. 
dropout (network, 0.8) 
fully_connected (network, 2, activation='softmax') 
regression (network, optimizer="'adam', learning rate=0.001, 
loss='categorical crossentropy', name="'target' 





实例 化 CNN 对 象 并 进行 训练 数据 ， 一 共 训 练 5 轮 : 








model = tflearn.DNN (network, tensorboard verbose=0) 

model .fit (trainx, trainYy, 
n epoch=5, shuffle=True, validation set= (testX, testY¥Y), 
show metric=True, batch size=100,run id="review") 








完整 的 CNN 结 构 如 图 7-15 所 示 。 
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图 7-15 用 于 识别 负面 评论 的 CNN 结 构 

















运行 程序 ， 经 过 5 轮训 练 ， 准 确 率 达到 了 86.75%。 


7.4 本 章 小 结 


本 章 基 于 IMDB 数据 集 介绍 了 负面 评论 的 识别 方法 。 针 对 IMDB 数据 集 ， 特 征 提取 方法 有 词 袋 和 TF-1DF 模 型 、 词 汇 表 模 型 以 及 Word2Vec 和 Doc2Vec 模 型 。 训 练 模 型 介绍 了 朴素 贝 叶 斯 、 支 持 向 量 机 以 
及 深度 学 习 的 MLP 和 CNN 算 法 ， 其 中 MLP 和 CNN 算 法 表现 不 错 ， 达 到 了 87% 左 右 。 





第 8 章 ”骚扰 短信 识别 


现在 ， 骚 扰 电 话 、 短 信 已 经 愈演愈烈 ， 调 查 发 现 ， 当 下 无 论 是 办 证 、 办 卡 、 网 上 购物 、 看 病 就 医 等 诸多 方面 都 会 涉及 公民 个 人 信息 ， 许 多 商家 以 各 种 名 义 获 取 公民 的 个 人 信息 ， 而 不 少 公民 对 个 人 信息 
保护 意识 淡薄 ， 随 意 留 取 。 短 信 几 乎 成 广告 推销 专用 : “海景 现房 ， 小 户型 精装 修 ， 详 情 来 电 致 电 ”“ 现 有 宝马 、 奔 驰 、 奥 迪 九 成 新 车 ， 最 低 10 万 ”.….. 翻 看 您 的 手机 ， 相 信 绝 大 多 数 人 的 短信 里 充斥 着 此 
类 卖房 、 卖 车 、 打 折 促销 甚至 开发 票 、 办 贷款 的 垃圾 短信 ， 有 些 是 以 手机 号 发 来 ， 而 绝 大 多 数 都 是 “106” 开 头 的 商业 号 码 。 这 些 短信 ， 九 成 以 上 都 是 “被 接收 ”的 。 除 推销 广告 外 ， 许 多 垃圾 短信 还 以 中 
奖 的 名 义 进行 诈骗 ， 让 一 些 等 待 “ 天 上 掉 馅 饼 "” 的 人 吃 了 大 亏 。 中 奖 短信 诈骗 往往 跨 省 甚至 跨国 ， 侦 破 难度 非常 大 。 比 如 ， 许 多 学 生 都 租房 子 住 ， 一 些 诈骗 短信 就 以 房东 名 义 ， 让 把 房租 打 到 一 个 卡 上 。 有 
的 学 生 接 到 这 类 短信 后 不 经 核实 ， 就 随意 打 钱 。 除 了 学 生 之 外 ， 一 些 中 老年 人 也 是 易 上 当 的 群体 。 比 如 骗子 会 称 “ 你 的 银行 卡 被 用 来 洗 黑 钱 ， 请 把 钱 转 到 安全 账户 ”， 一 些 老年 人 缺乏 社会 经 验 ， 一 步 一 步 
落 入 骗子 圈套 。 此 类 诈骗 短信 或 电话 往往 是 无 指定 目标 的 “群发 ”， 骗 子 通过 广 撒 网 的 方式 “捕捉 ”上 当 者 []。 





本 章 主要 以 SMS Spam Collection 数 据 集 马 为 例 介绍 骚扰 短信 的 识别 技术 。 介 绍 识别 双 扰 短信 使 用 的 特征 提取 方法 ， 包 括 词 袋 和 TF-IDF 模 型 、 词 汇 表 模型 以 及 Word2Vec 和 Doc2Vec 模 型 ， 介 绍 使 用 的 
模型 以 及 对 应 的 验证 结果 ， 包 括 朴 素 贝 叶 斯 、 支 持 向 量 机 、XGBoost 和 MLP 算 法 。 








本 章 演示 代码 请 参考 本 书 GitHub 上 的 sms.py 文 件 。 


[1] http://www.qlfz365.cn/Article/jrzdz/201503/20150312081915.html 


[2] http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection 


8.1 数据 集 














测试 数据 来 自 MS Spam Collection 数 据 集 ，SMS Spam Collection 是 用 于 骚扰 短信 识别 的 经 典 数据 集 ， 完 全 来 自 真实 短信 内 容 ， 包 括 4831 条 正常 短信 和 747 条 骚扰 短信 。 从 官网 下 载 数据 集 压缩 包 并 
解压 ， 正 常 短信 和 骚扰 短信 保存 在 一 个 文本 文件 中 ( 见 图 8-1) 。 


























smsspamcollection 


O00 | lioll 


| x= 
readme SMSSpamCollecti 
on.txt 

















8-1 ”SMS Spam Collection 数 据 集 文件 结构 


每 行 完整 记 录 一 条 短信 和 内容， 每 行 开头 通过 ham 和 spam 标 识 正常 短信 和 骚扰 短信 ， 数 据 集 文件 内 容 举 例如 下 : 





ham What you doing?how are you? 

ham Ok larhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... Joking wif u onihttp://www.hzcourse.com/resource/readBook? 
ham dun say so early horhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... U c already then sayhttp://www.hzcourse.com/ 
ham MY NO. IN LUTON 0125698789 RING ME IF UR AROUND! H* 

ham Siva is in hostel aha:-. 

ham Cos i was out shopping wif darren jus now n i called him 2 ask wat present he wan lor. Then he started guessing who i was wif n he finally guessed darren lor. 

spam FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! ubscribe6GBP/ mnth inc 3hrs 16 stop?txtStop 

spam Sunshine Quiz! Win a super Sony DVD recorder if you canname the capital of Australia? Text MQUIZ to 82277. B 

spam URGENT! Your Mobile No 07808726822 was awarded a L2,000 Bonus Caller Prize on 02/09/03! This is our 2nd attempt to contact YOU! Call 0871-872-9758 BOX95QU 














SMS Spam Collection 数 据 集 主页 如 图 8-2 所 示 ， 其 地 址 为 : 














http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection 





GC | © archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection 


UC 


NMachine Learning Repository 


Center for Machine Leaming and Intelligent Systems 


SMS Spam Collection Data Set 
Download: Data Folder, Data Set Description 


Abstract: The SMS Spam Collection is a public set of SMS labeled messages that have been collected for mobile phone spam research. 





[ 

Data Set Characteristics: | Multivariate, Text, Domain-Theory | Number of Instances: | 5574 | Area: Computer 
| Attribute Characteristics: | Real | Number of Attributes: | N/A | Date Donated 2012-06-22 
| Associated Tasks: | Classification, Clustering | Missing Values? | N/A | Number of Web Hits: || 101932 

















Source: 


Tiago A. Almeida (talmeida ufscar.br) 
Department of Computer Science 

Federal University of Sao Carlos (UFSCar) 
Sorocaba, Sao Paulo - Brazil 


JosAG MarAa GAmez Hidalgo (mgomezh yahoo.es) 
R&D Department Optenet 
Las Rozas, Madrid - Spain 











图 8-2 SMS Spam Collection 数 据 集 主页 








8.2 ”特征 提取 


8.2.1 词 袋 和 TF-IDF 模 型 


我 们 使 用 最 常见 的 词 袋 模型 提取 文件 特征 。 








逐 行 读 取 数 据 文件 MSSspamCollection.txt， 由 于 每 行 数据 都 由 标记 和 短信 内 容 组 成 ， 两 者 之 间 使 用 制 表 符 分 割 ， 所 以 可 以 通过 split 函 数 进行 切 分 ， 直 接 获取 标记 和 短信 内 容 : 





x=[] 
Y=[] 
datafile="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/sms/smsspamcollection/SMSSpamCollection.txt" 
with open (datafile) as f: 
for line in f: 

line=line.strip('\n') 

label, text=line.split ('\t') 

x.append (text) 





根据 标记 内 容 ， 分 别 给 正常 邮件 和 骚扰 邮件 标记 为 O 和 1: 





if label 一 'ham' : 
Y.append(0) 
else: 
Y.append(1) 








随机 划分 数据 集 为 训练 集 和 测试 集 ， 其 中 测试 集 占 40%: 





x train, x test, y train, y test = train test split(x, y, test size=0.4) 





使 用 的 CountVectorizer 进 行 词 袋 化 处 理 ，CountVectorizer 的 详细 使 用 方法 请 参考 第 6 章 相关 章节 : 








Vectorizer = CountVectorizer( 
decode error='ignore', 
strip accents='ascii', 
max features=max features, 
stop_ words="'english', 
max df=1.0, 
min df=1, 
binary=True) 

Print vectorizer 

x train=vectorizer.fit transform(x train) 

x train=x train.toarray () 

vocabulary=vectorizer.vocabulary_ 











使 用 TF-IDF 进 行 处 理 ， 提 高 分 类 器 性 能 ，TF-IDF 详 细 介绍 请 参考 第 6 章 相关 章节 : 











transformer = TfidfTransformer (smooth idf=False) 
x train=transformer.fit transform(x train) 

x train=x train.toarray() 

x test=transformer.transform(x test) 

x test=x test.toarray () 





8.2 ”特征 提取 


8.2.1 词 袋 和 TF-IDF 模 型 











我 们 使 用 最 常见 的 词 袋 模型 提取 文件 特征 。 








逐 行 读 取 数 据 文件 MSSpamCollection.txt， 由 于 每 行 数据 都 由 标记 和 短信 内 容 组 成 ， 两 者 之 间 使 用 制 表 符 分 割 ， 所 以 可 以 通过 split 函 数 进行 切 分 ， 直 接 获取 标记 和 短信 内 容 : 














x=[] 
wll 
datafile="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/sms/smsspamcollection/SMSSpamCollection.txt" 
with open (datafile) as f: 
for line in f: 

line=line.strip('\n') 

label, text=line.split ('\t') 

x.append (text) 





根据 标记 内 容 ， 分 别 给 正常 邮件 和 骚扰 邮件 标记 为 0 和 1 : 





if label 一 ,ham' : 
y.append (0) 

else: 

y.append (1) 








随机 划分 数据 集 为 训练 集 和 测试 集 ， 其 中 测试 集 占 40%: 





x train, x test, y train, y test = train test split(x, y, test size=0.4) 





使 用 的 CountVectorizer 进 行 词 袋 化 处 理 ，CountVectorizer 的 详细 使 用 方法 请 参考 第 6 章 相关 章节 : 











Vectorizer = CountVectorizer( 
decode error='ignore', 
strip accents='ascii', 
max features=max features, 
stop_words="'english', 
max df=1.0, 
min df=1， 
binary=True) 

print vectorizer 

x train=vectorizer.fit transform(x train) 

x train=x train.toarray () 

vocabulary=vectorizer.vocabulary_ 





使 用 TF-IDF 进 行 处 理 ， 提 高 分 类 器 性 能 ，TF-IDF 详 细 介绍 请 参考 第 6 章 相关 章节 : 





transformer = TfidfTransformer (smooth idf=False) 
x train=transformer.fit transform (x_train) 

x train=x train.toarray () 

x_ test=transformer.transform(x_ test) 

x test=x test.toarray() 





8.2.2 词汇 表 模 型 




















词 袋 模型 可 以 很 好 地 表现 文本 由 哪些 单词 组 成 ， 但 是 却 无 法 表达 单词 之 间 的 前 后 关系 ， 于 是 人 们 借鉴 了 词 袋 模型 的 思想 ， 使 用 生成 的 词汇 表 对 原 有 句子 按照 单词 逐个 进行 编码 。 在 本 例 中 ,使 
TensorFlow 的 tflearn.data_utils.VocabularyProcessor 函 数 即 可 : 





























def get features by tf() : 

global max document length 

x train, x test, y train, y test=load all files() 

vp=tflearn.data utils.VocabularyProcessor( 

max document length=max document length, 

min frequency=0, 
vocabulary=None, 
tokenizer fn=None) 

x train=vp.fit transform(x train, unused y=None) 

x train=np.array (list (x train)) 

x_test=vp.transform(x test) 

x test=np.array (list (x test)) 

return x train, x test, y train, y test 





8.2.3 ”Word2Vec 模 型 和 Doc2Vec 模 型 











Word2Vec 是 Google 在 2013 年 开源 的 一 款 将 词 表征 为 实数 值 向 量 的 高 效 工具 ， 采 用 的 模型 有 连续 的 词 袋 模型 (Continuous Bag-Of-Words，CBOW) 和 Skip-Gram 两 种 ，Word2Vec 详 细 介 绍 请 参考 
本 书 第 7 章 相关 内 容 。 




















逐 行 读 取 数 据 文件 MSSspamCollection.txt， 由 于 每 行 数据 都 由 标记 和 短信 内 容 组 成 ， 两 者 之 间 使 用 制 表 符 分 割 ， 所 以 可 以 通过 split 函 数 进行 切 分 ， 直 接 获取 标记 和 短信 内 容 : 





x=[] 
Well] 
datafile="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/sms/smsspamcollection/SMSSpamCollection.txt" 
with open (datafile) as f: 
for line in f: 

line=line.strip('\n') 

label, text=line.split ('\t') 

x.append (text) 





根据 标记 内 容 ， 分 别 给 正常 邮件 和 骚扰 邮件 标记 为 0 和 1 : 





if label 一 'ham': 
Y.append (0) 
else: 
y.append (1) 








随机 划分 数据 集 为 训练 集 和 测试 集 ， 其 中 测试 集 占 40%: 





x train, x test, y train, y test = train test split(x, y, test size=0.4) 








短信 内 容 中 可 能 存在 一 些 特殊 符号 ， 这 类 特殊 符号 也 对 判断 骚扰 邮件 有 一 定 帮助 ， 需 要 处 理 的 特殊 符号 如 下 所 示 : 








punatuaticn = "mn,, e172() 40] 











常见 的 处 理 方法 是 在 特殊 符号 前 后 增加 空格 ， 然 后 使 用 split 函 数 切 分 时 就 可 以 完整 保留 这 些 特 殊 符号 : 















def cleanText (Corpus) : 
Bunctuation = wr Sl QPL 
for c in punctuation: 
Corpus = [z.replacel(c, ss ' gc) for z in corpus] 
Corpus = [z.split() for z in corpus] 
return corpus 


' 











将 训练 数据 和 测试 数据 分 别 使 用 cleanText 函 数 处 理 ， 合 并 成 完整 数据 集合 x: 











x train=cleanText (x train) 
x test=cleanText (x_test) 
x=x traintx test 




















初始 化 Word2Vec 对 象 ，size 表 示 训 练 Word2Vec 的 神经 网 络 隐藏 层 节点 数 ， 同 时 也 表示 了 Word2Vec 向 量 的 维 数 ; window 表 示 训 练 Word2Vec 的 窗口 长 度 ; min_count 表 示 出 现 次 数 小 于 min_count 
的 单词 将 不 计算 ; iter 表 示 了 训练 Word2Vec 的 次 数 ，gensim 官 方 文档 强烈 建议 增加 iter 次 数 以 提高 生成 的 Word2Vec 的 质量 ， 默 认 值 为 5: 





model=gensim.models.Word2Vec (size=max features, window=3, min count=1， iter=60, workers=cores) 
model .build vocab (x) 
model .train (x, total examples=model.corpus count, epochs=model .iter) 








其 中 ，cores 代 表 了 当前 计算 机 的 CPU 个 数 : 





cores=multiprocessing.cPpu_count () 




















训练 完成 后 ， 单 词 对 应 的 Word2Vec 会 保存 在 model 变 量 中 ， 可 以 使 用 类 似 字典 的 方式 直接 访问 ， 比 如 获取 单词 love 对 应 的 Word2Vec 的 方法 为 : 



































model['1ove'] 





Word2Vec 有 个 特性 ， 一 句 话 或 者 几 个 单词 组 成 的 短语 含义 可 以 通过 把 全 部 单词 的 Word2Vec 值 相 加 取 平 均值 来 获取 ， 比 如 : 





model['good boy']= (model['good]+ model['boy])/2 














利用 这 个 特性 ， 可 以 将 组 成 短信 的 单词 和 字符 的 Word2Vec 相 加 并 取 平均 值 : 








def buildWordVector (imdb w2v,text, size): 
vec = np.zeros (size) .reshape( (1, size)) 
count = 0. 
for word in text: 
try: 
vec += imdb w2v[word] .reshape((1l, size)) 
count += 1. 
except KeyError: 
continue 
if count != 0: 
vec /= count 
return vec 





另外 ， 由 于 出 现 次 数 小 于 min_count 的 单词 将 不 计算 ， 并 且 测 试 样本 中 也 可 能 存在 未 处 理 的 特殊 字符 ， 所 以 需要 通过 捕捉 KeyError 避 免 程 序 异常 退出 。 








将 训练 集 和 测试 集 依次 处 理 ， 获 取 对 应 的 Word2Vec 值 ， 同 时 使 用 scale 函 数 将 其 标准 化 处 理 : 

















x train= np.concatenate ( [buildWordVector (model,z, max features) for z in x train]) 
x train = scale (x train) 

x test= np.concatenate ([buildWordVector (model,z, max features) for z in x test]) 
x test = scale(x test) 























使 用 scale 函 数 的 作用 是 ， 避 免 多 维 数据 中 个 别 维度 的 数据 过 大 或 者 过 小 从 而 影响 算法 分 类 效果 。scale 函 数 会 把 各 个 维度 的 数据 转换 后 使 分 布 更 加 “平均 ”: 





>>> from sklearn import preprocessing 

>>> import numpy as np 

>>> X = np.array([[ 1., -1., 2.], 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/OEBPS/Text/... fi 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... [0 
>>> X_scaled = preprocessing.scale (X) 





scale 函 数 处 理 后 的 结果 为 : 





>>> X_ scaled 
array([[ 0. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/..., -1.22http://www.hzcourse 


.Com/resource/readBook?path=/c 


[ 1.22http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/..., 0. http://www.hzcourse.com/resource/readBook?path=/c 
[-1.22http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/..., 1.22http://www.hzcourse.com/resource/readBook?path=/c 





如 果 想 把 各 个 维度 的 数据 都 转换 到 0 和 1 之 间 ， 可 以 使 用 MinMaxScaler 函 数 ， 比 如 转换 前 的 数据 为 : 











>>> X _ train = np.array([[ 1., -1., 2.], 
http:7/www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompresseqd/17280/OEBPSVText/... | 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... EQ 





使 用 MinMaxScaler 转 换 后 的 结果 为 : 





>>> min max scaler 
>>> X train minmax 
>>> XxX train minmax 


Preprocessing.MinMaxScaler () 
min max scaler.fit _ transform (X _ train) 


array([[ 0.5 Po 站 js 
[1. 7 1 O33333333]; 
[ 0. ‘ dG ]]) 


1 





8.3 ”模型 训练 与 验证 


8.3.1 ”朴素 贝 叶 斯 算法 

















使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 8-3 所 示 。 














SMS Spam 
Collection 数 据 集 


壮 窗 化 处 理 


TEF-IDF 处 理 


朴素 贝 叶 斯 
算法 训练 


效 术 验证 


图 8-3 ”特征 提取 使 用 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 算法 处 理 流程 











1) 将 SMS Spam Collection 数 据 集 的 文件 提取 词 袋 。 


2) TF-IDF 处 理 。 

















3) 将 SMS Spam Collection 数 据 集 数据 划分 为 训练 集 和 测试 集 。 











4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 























5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





验证 朴素 贝 叶 斯 算法 预测 效果 。 


Oo 























实例 化 朴素 贝 叶 斯 算法 ， 使 用 训练 数据 集训 练 ， 针 对 测试 数据 集 预测 : 








gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.confusion matrix(y test，yY_Pred) 
print (classification report(y test, y pred)) 

















使 
类 型 名 称 
检索 到 
未 检索 到 
完整 输 出 结果 为 : 


词 袋 和 TF-IDF 模 型 时 ， 整 个 系统 准确 率 为 90%， 召 回 率 72?%6，TP、FP、TN、FN 和 矩阵 见 表 8-1。 


表 8-1 基于 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 验证 结果 





不 相 关 
605 
278 





NB and wordbag 


precision recall fl-score support 


0 0.99 0.69 0.81 1936 
2 已 [a 0.47 294 
avg / total 0.90 d.72 0.77 2230 
[[1331 605] 
[ 16 278]] 









































使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 Word2Vec 模 型 ， 完 整 的 处 理 流程 如 图 8-4 所 示 。 


SMS spam 
Collection 数 据 集 


RW ord2Vec 
柑 型 


串 练 集 
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算法 训练 





图 8-4 ”特征 提取 使 用 Word2Vec 模 型 的 朴素 贝 叶 斯 算法 处 理 流程 


1) 将 SMS Spam Collection 数 据 集 的 文件 提取 Word2Vec。 


DN 


将 Word2Vec 数 据 标准 化 。 






































5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 


Oo 





验证 朴素 贝 叶 斯 算法 预测 效果 。 








使 用 Word2Vec 模 型 时 ， 整 个 系统 准确 率 为 98%， 召 








3) 将 SMS Spam Collection 数 据 集 数 据 划分 为 训练 集 和 测试 集 。 


4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 


回 率 98%，TP、FP、TN、FN 和 矩阵 见 表 8-2。 





类 型 名 称 
检索 到 
未 检索 到 


完整 输出 结果 为 : 


表 8-2 ”基于 Word2Vec 模 型 的 朴素 贝 叶 斯 验证 结果 





不 


相 关 
39 


281 





get_ features by Word2Vec 

Find cache file smsword2ver.bin 
NB and Word2Vec 

0.975784753363 


[[1895 39] 
[ 15 281]] 
precision recall fl-score support 
0 0.99 0.98 D99 1934 
1 0.88 0.95 0.91 296 
avg / total 0.98 0.98 0.98 2230 





8.3 ”模型 训练 与 验证 


8.3.1 ”朴素 贝 叶 斯 算法 

















使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 














词 袋 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 8-3 所 示 。 


SMS Spam 
Collection 数 据 集 


壮 窗 化 处 理 


TEF-IDF 处 理 


朴素 贝 叶 斯 
算法 训练 


效 术 验证 


图 8-3 ”特征 提取 使 用 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 算法 处 理 流程 











1) 将 SMS Spam Collection 数 据 集 的 文件 提取 词 袋 。 


2) TF-IDF 处 理 。 

















3) 将 SMS Spam Collection 数 据 集 数据 划分 为 训练 集 和 测试 集 。 











4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 























5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





验证 朴素 贝 叶 斯 算法 预测 效果 。 


Oo 























实例 化 朴素 贝 叶 斯 算法 ， 使 用 训练 数据 集训 练 ， 针 对 测试 数据 集 预测 : 








gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.confusion matrix(y test，yY_Pred) 
print (classification report(y test, y pred)) 

















使 
类 型 名 称 
检索 到 
未 检索 到 
完整 输 出 结果 为 : 


词 袋 和 TF-IDF 模 型 时 ， 整 个 系统 准确 率 为 90%， 召 回 率 72?%6，TP、FP、TN、FN 和 矩阵 见 表 8-1。 


表 8-1 基于 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 验证 结果 





不 相 关 
605 
278 





NB and wordbag 


precision recall fl-score support 


0 0.99 0.69 0.81 1936 
2 已 [a 0.47 294 
avg / total 0.90 d.72 0.77 2230 
[[1331 605] 
[ 16 278]] 









































使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 Word2Vec 模 型 ， 完 整 的 处 理 流程 如 图 8-4 所 示 。 
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图 8-4 ”特征 提取 使 用 Word2Vec 模 型 的 朴素 贝 叶 斯 算法 处 理 流程 


1) 将 SMS Spam Collection 数 据 集 的 文件 提取 Word2Vec。 


DN 


将 Word2Vec 数 据 标准 化 。 






































5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 


Oo 





验证 朴素 贝 叶 斯 算法 预测 效果 。 








使 用 Word2Vec 模 型 时 ， 整 个 系统 准确 率 为 98%， 召 








3) 将 SMS Spam Collection 数 据 集 数 据 划分 为 训练 集 和 测试 集 。 


4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 


回 率 98%，TP、FP、TN、FN 和 矩阵 见 表 8-2。 





表 8-2 ”基于 Word2Vec 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 
检索 到 
未 检索 到 


不 相 关 
39 





281 
完整 输出 结果 为 : 





get_ features by_Wor 


d2Vec 
Find cache file smsword2ver.bin 
0.975784753363 
[[1895 39] 
[ 15 281]] 


precision recall fl-score support 
0 0.99 0.98 0 


“99 1934 
于 0.88 0.95 也 91 296 
avg / total 0.98 0.98 0.98 2230 





8.3.2 ”支持 向 量 机 算法 























使 用 支持 向 量 机 算法 ， 特 征 提取 使 





Word2Vec 模 型 ， 完 整 的 处 理 流程 如 图 8-5 所 示 。 





Collection 数 据 集 


获取 Word2Vec 模 型 


训练 集 


文 持 回 量 机 
算法 训练 





效果 验证 


图 8-5 “特征 提取 使 用 Word2Vec 模 型 的 支持 向 量 机 算法 处 理 流程 





1) 将 SMS Spam Collection 数 据 集 的 文件 提取 Word2Vec。 





DN 


将 Word2Vec 数 据 标准 化 。 











3) 讲 SMS Spam Collection 数 据 集 数据 划分 为 训练 集 和 测试 集 。 














4) 使 用 支持 向 量 机 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 





























5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





Oo 


验证 支持 向 量 机 算法 预测 效果 。 

















实例 化 支持 向 量 机 算法 ， 使 用 训练 数据 集训 练 ， 针 对 测试 数据 集 预测 : 











clf = svm.SVC () 
clf.fit (x train, y train) 
Y_Pred = clf.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 


print (classification report(y test, y pred)) 
print metrics.confusion matrix(y test, y pred) 





运行 程序 ， 整 个 系统 准确 度 为 99%， 召 回 率 99%，TP、FP、TN、FN 矩 阵 见 表 8-3。 


表 8-3 ”基于 Word2Vec 模 型 的 支持 向 量 机 验证 结果 


类 型 名 称 不 相 关 


检索 到 7 
未 检索 到 275 





完整 输出 结果 为 : 





SVM and Word2Vec 
Precision recall fl-score support 
0.99 1.00 v.99 1937 


0.98 0.94 0.96 293 
avg / total D99 D.99 Vag 2230 
0.988789237668 
[[1930 7] 
[ 18 275]] 





8.3.3 XGBoost 算 法 





























XGBoost 是 近 几 年 流行 起 来 的 一 种 分 类 算法 ， 由 Tianqi Chen 最 初 开 发 的 实现 可 扩展 、 便 携 、 分 布 式 gradient boosting 算 法 的 一 个 库 ， 可 以 下 载 安装 并 应 用 于 C++、Python、R 等 语言 ， 现 在 由 很 多 协 
作者 共同 开发 维护 。XGBoost 所 应 用 的 算法 就 是 gradient boosting decision tree， 既 可 以 用 于 分 类 也 可 以 用 于 回归 问题 中 。XGBoost 最 大 的 特点 在 于 ， 它 能 够 自动 利用 CPU 的 多 线程 进行 并 行 ， 同 时 在 算 
法 上 加 以 改进 提高 了 精度 。 它 的 处 女 秀 是 Kaggle 的 希 格 斯 子 信号 识别 竞赛 ， 因 为 出 众 的 效率 与 较 高 的 预测 准确 度 在 比赛 论坛 中 引起 了 参赛 选手 的 广泛 关注 ， 在 1700 多 支队 伍 的 激烈 竞争 中 占有 一 席 之 地 。 随 
着 它 在 Kaggle 社 区 知名 度 的 提高 ， 最 近 也 有 队伍 借助 XGBoost 在 比赛 中 夺 得 第 一 。 这 里 提 到 的 Kaggle 是 由 联合 创始 人 、 首 席 执行 官 安 东 尼 ;高 德 布 卢 姆 2010 年 在 墨尔本 创立 的 ， 主 要 为 开发 商 和 数据 科学 家 
提供 举办 机 器 学 习 竞 赛 、 托 管 数据 库 、 编 写 和 分 享 代码 的 平台 。 该 平台 已 经 吸引 了 80 万 名 数据 科学 家 的 关注 。 
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XGBoost 的 安装 也 比较 简单 ， 以 mac 为 例 ， 从 GitHub 同 步 最 新 代码 并 进行 编译 : 





git clone --recursive https://github.com/dmlc/xgboost 
cd xgboost 

cp make/minimum.mk ./config.mk 

make -j4 





然后 安装 python 对 应 包 : 


cd Python-package 
sudo Python setup.py install 








其 他 系统 的 安装 请 参考 如 下 链接 : 





http://xgboost .readthedocs.io/en/latest/build.html 



































XGBoost 的 支持 Scikit-Learn 风 格 的 API 接 口 ， 完 全 可 以 当做 一 个 加 强 版 的 决策 树 来 使 用 。 




















使 用 XGBoost 算 法 ， 特 征 提取 使 用 词 袋 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 8-6 所 示 。 























SMS Spam 
Collection 数 据 集 


词 窑 化 处 理 








TF-IDF 处 理 


训练 集 测试 集 


XCGBoost 
算法 训练 


效 朱 验证 














1) 将 SMS Spam Collection 数 据 集 的 文件 提取 词 袋 。 





2) 将 数据 集 词 袋 化 处 理 。 


3) 将 数据 集 TF-IDF 处 理 。 


4) 将 SMS Spam Collection 数 据 集 数据 划分 为 训练 集 和 测试 集 。 














5) 使 用 XGBoost 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














6) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








7) 验证 XGBoost 算 法 预测 











实例 化 XGBoost 算 法 ， 使 








效果 。 


训练 数据 集训 练 ， 针 对 测试 数据 集 预 测 : 





xgb model = xgb.XGBClassifier() .fit(x_ train, y train) 
y_pred = xgb model.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print (classification report(y test, y pred)) 
print metrics.confusion matrix(y test, y pred) 

















类 型 名 称 
仿 索 到 
未 检索 到 





使 用 词 袋 和 TF-IDF 模 型 时 ， 整 个 系统 准确 率 为 969%， 召 回 率 96%，TP、FP、TN、FN 和 矩阵 见 表 8-4。 


表 8-4 基于 词 袋 和 TF-IDF 模 型 的 XGBoost 算 法 验证 结果 





不 相 关 


210 





完整 输出 结果 为 : 
xgboost and wordbag 
precision recall fl-score support 
0 0.96 1.00 0.98 1931 
1 0.98 0.70 0.82 299 
avg / total 0.96 0.96 0.95 2230 
[[1926 S] 
[ 89 210]] 


























使 用 XGBoost 算 法 ,特征 提取 使 用 Word2Vec 模 型 ， 完 整 的 处 理 流程 如 图 8-7 所 示 。 











SMS Spam 
Collection 数 据 集 


获取 Word2Vec 
模型 









标准 化 









训练 集 


A(IBoost 
算法 训练 


效 朱 验证 


1) 将 SMS Spam Collection 数 据 集 的 文件 提取 Word2Vec。 


2) 将 Word2Vec 数 据 标准 化 。 








3) 将 SMS Spam Collection 数 据 集 数 据 划分 为 训练 集 和 测试 集 。 








4) 使 用 XGBoost 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








6) 验证 XGBoost 算 法 预测 效果 。 








使 用 Word2Vec 模 型 时 ， 整 个 系统 准确 率 为 99%， 召 回 率 99%，TP、FP、TN、FN 和 矩阵 见 表 8-5。 




















表 8-5 基于 Word2Vec 模 型 的 XGBoost 验 证 结果 


类 型 名 称 不 相 关 


检索 到 11 
250 


未 检索 到 





完整 输出 结果 为 : 





get_ features by Word2Vec 
Find cache file smsword2ver.bin 
xgboost and Word2Vec 
precision recall fl-score support 
0.99 0.99 0.99 1959 


1 0.96 0.92 0.94 271 
avg / total D99 D0.99 V99 2230 
[[1948 11] 
| 





8.3.4 深度 学 习 算 法 之 MLP 























使 用 MLP 算 法 ， 隐 含 层 设计 为 2 层 ， 每 次 节点 数 分 别 为 5 和 和 2， 特 征 提取 使 用 Word2Vec 模 型 ， 完 整 的 处 理 流程 如 图 8-8 所 示 。 





























SMS Spam 
Collection 数 据 集 


RWord2Vec 


模型 





标准 化 






训练 集 测试 集 


MLP 
算法 训练 


效 朱 验证 














1) 将 SMS Spam Collection 数 据 集 的 文件 提取 Word2Vec。 





2) 将 Word2Vec 数 据 标准 化 。 


3) 将 SMS Spam Coll 





ection 数 据 集 数据 划分 为 训练 集 和 测试 集 。 








4) 使 用 MLP 算 法 在 训 


练 集 上 训练 ， 获 得 模型 数据 。 














5) 使 用 模型 数据 在 涡 








6) 验证 MLP 算 法 预测 


试 集 上 进行 预测 。 


效果 。 














实例 化 MLP 算 法 ， 使 


训练 数据 集训 练 ， 针 对 测试 数据 集 预 测 : 











clf = MLPClassifier( 


solver="'lbfgs', 


alpha=le-5, 
hidden layer sizes = (5, 2), 
random state = 1) 


print olf 


clf.fit (x train, y train) 
y_pred = clf.predict (x test) 





评估 结果 的 准确 度 和 T 


P、FP、TN、FN4 个 值 : 





print (classification report(y test, y pred)) 
print metrics.confusion matrix(y test, y pred) 





运行 程序 ， 整 个 系统 准确 度 为 98%， 召 回 率 98%，TP、FP、TN、FN 和 矩阵 见 表 8-6。 


完整 输出 结果 为 : 


MLP and Word2Vec 


表 8-6 
类 型 名 称 
检索 到 
未 检索 到 


基于 Word2Vec 模 型 的 MLP 验 证 结果 





MLPClassifier (activation='relu', alpha=le-05, batch size='auto', beta 1=0.9, 


beta 2=0.999, 


early stopping=False, epsilon=le-08, 


hidden layer sizes=(5, 2), learning rate='constant', 
learning rate init=0.001, max iter=200, momentum=0.9, 

nesterovs momentum=True, power t=0.5, random state=1， shuffle=True, 
solver='1lbfgs', tol=0.0001, validation fraction=0.1, verbose=False, 
warm start=False) 


precision recall fl-score support 
0 0.99 0.98 0.99 1947 
册 0.88 0.95 C9 283 
avg / total 0.98 0.98 0.98 2230 
[[1910 37] 
[ 15 268]] 


8.4 ”本 章 小 结 


本 章 














到 了 999%。 在 使 





相同 的 分 类 算法 的 情况 下 ， 特 征 提取 使 














[1] http://archive.ics.uci.edu/ml/datasets/SMS+Spam+ Collection 


要 以 SMS Spam Collection 数 据 集中 为 例 介绍 骚扰 短信 的 识别 技术 。 介 绍 识别 骚扰 短信 使 F 
型 以 及 对 应 的 验证 结果 ， 包 括 朴素 贝 叶 斯 、 支 持 向 量 机 、XGBoost 和 MLP 算 法 。 通 过 实际 测试 发 现 ， 特 征 提 取 使 F 
Word2Vec 模 型 效果 更 好 。 针 对 类 似 的 文本 分 类 问题 ， 大 家 都 可 以 尝试 特征 提取 使 

















的 特征 提取 方法 ， 包 括 词 袋 和 TF-IDF 模 型 、 词 汇 表 模型 、Word2Vec 和 Doc2Vec 模 型 ， 介 绍 使 有 


不 相 关 
37 


208 








的 模 
































Word2Vec 模 型 ， 分 类 算法 使 






































第 9 章 ”Linux 后 门 检测 








Linux 是 一 套 免费 使 有 











由 传播 的 类 Unix 操 作 系统 ， 是 一 个 大 





和 











和 64 位 硬件 。Linux 继 承 了 





FPOSIX 和 Unix 的 多 
Unix 以 网 络 为 核心 的 设计 思想 ， 是 一 个 性 能 稳定 的 多 用 户 网 络 操作 系统 。Linux 操 作 系统 诞生 于 1991 生 


XGBoost 和 支持 向 量 机 的 效果 最 佳 ， 准 确 率 和 召回 
Word2Vec 模 型 。 


率 都 达 






































户 、 多 任务 、 支 持 多 线程 和 多 CPU 的 操作 系统 。 它 能 运行 主 
FE， 发 

















路 由 器 、 视 频 游戏 控制 台 、 台 式 计算 机 、 大 型 机 和 超级 计算 机 。Linux 的 流行 让 它 成 为 众多 黑客 攻击 的 目标 。 


本 章 主要 以 ADFA-LD 数 据 集 为 例 介绍 Linux 系 统 





本 章 演示 代码 请 参考 本 书 GitHub 上 的 linux.py 文 件 。 


9.1 数据 集 


ADFA 数 据 集 是 澳大利亚 国 


比如 











请 系统 资源 ， 操 作 设 备 读 写 ， 创 建新 进程 等 。 


防 学 院 对 外 发 布 的 一 套 3 








E 机 级 入 侵 检 测 系 统 的 数据 集合 ， 被 广泛 应 
Windows 系 统 的 数据 集 。 以 ADFA-LD 为 例 ， 它 完整 记录 了 一 段 时 间 内 的 操作 系统 的 系统 调用 。 内 核 提 供用 户 空间 程序 与 内 核 空间 进行 交互 的 一 套 标准 接 


的 后 门 检测 ， 使 用 特征 提取 方法 为 2-Gram 和 TF-IDF， 介 绍 的 分 类 算法 包括 朴素 贝 叶 斯 、XGBoost 和 深度 学 习 之 多 








于 入 侵 检 测 类 产品 的 测试 。 该 数据 集 包括 ADFA-LD 科 























户 空间 发 生 请 求 ， 内 核 空间 负责 








便 是 用 户 空间 和 内 核 空间 共同 识别 的 桥梁 ， 这 里 





行 ， 这 些 接 [ 




















而 不 能 让 








户 空间 程序 随意 更 改 系统 ， 必 须 是 内 核对 外 开放 的 且 满 足 权限 的 程序 才能 调 








展 至 今 已 经 可 以 安装 在 各 种 计算 


的 Unix 工 具 软件 、 应 用 程序 和 网 络 协议 ， 支 持 32 位 


几 硬 件 设备 中 ， 比 如 手机 、 平 板 电脑 、 








层 感知 机 。 


HADFA-WD， 分 别 代表 Linux 系 统 的 数据 集 和 
口 ， 这 些 接口 让 用 户 态 程序 能 受 限 访问 硬件 设备 ， 




















提 到 两 个 字 “ 受 限 ”， 是 由 于 为 了 保证 内 核 稳定 性 ， 
”的 中 间 层 ， 是 连接 用 户 态 和 内 核 态 的 桥梁 。 这 样 





















































相应 接口 。 在 用 户 空间 和 内 核 空间 之 间 ， 有 一 个 叫做 “系统 调 

















即 提高 了 内 核 的 安全 性 ， 也 便于 移植 一 只 需 实 现 同一 套 接口 即 可 。Linux 系 统 ， 用 户 空间 通过 向 内 核 空间 发 出 系统 调用 产生 软 中 断 ， 从 而 让 程序 陷入 内 核 态 ， 执 行 相应 的 操作 。 对 于 每 个 系统 调用 都 会 有 一 
个 对 应 的 系统 调用 号 ， 比 很 多 操作 系统 要 少 很 多 [1]。 
































Gideon Creech 为 这 个 项 目的 负责 人 ， 项 目 主页 为 : 





https://www.unsw.adfa.edu.au 


























ADFA-LD 已 经 将 各 类 系统 调用 进行 了 标号 ， 大 家 可 以 把 这 个 标号 理解 为 系统 调用 号 。ADFA-LD 针 对 攻击 类 型 进行 了 标注 ， 各 种 攻击 类 型 见 表 9-1。 




















表 9-1 ADFA-LD 攻 击 类 型 


攻击 类 型 


淡 
请 
他 


Training 833 normal 
Validation normal 
Hydra-FTP 162 attack 
Hydra-SSH 148 attack 
Adduser attack 
Java-Meterpreter 125 attack 
Meterpreter attack 
Webshell | attack 















































ADFA-LD 的 每 个 文件 都 独立 记录 了 一 段 时 间 内 的 操作 系统 发 生 的 系统 调用 ， 每 个 系统 调 


ea 


数字 编号 ， 对 应 的 编号 举例 如 下 : 





#define _NR io setup 0 __SYSCALL( NR io setup, sys_io setup) 

#define _NR io destroy 1 _ SYSCALL(_ NR io destroy, sys_io destroy) 
#define _ NR io submit 2 _SYSCALL( NR io submit, sys_io submit) 

#define NR io cancel 3 SYSCALL( NR io cancel, sys io cancel) 

#define _ NR io getevents 4 _ SYSCAIL( NR io getevents, sys_io getevents) 
#define NR setxattr 5 SYSCALL(_ NR setxattr, sys_setxattr) 


#define _ NR lsetxattr 6 _ SYSCALL( NR lsetxattr, sys_lsetxattr) 














ADFA-LD 的 数据 文件 内 容 示例 如 图 9-1 所 示 ， 大 家 可 以 看 到 文件 记录 了 一 连 串 数字 ， 这 就 是 已 经 编号 过 的 系统 调用 序列 。 























UAD-Meterpreter-6-961.txt ~ 


下 97 3 916 3 
3 .3 6 9 5 35 
192 3.0 91 5 197 192 35 
S10) L192 3 03 6 
6 91 
3 


9 
3 
6 


3 
5 


. 
9 
192 3069 3 





图 9-1 ADFA-LD 的 数据 文件 内 容 举 例 
[1] http://android.jobbole.com/84830/ 


9.2 ”特征 提取 


























ADFA-LD 数 据 集 已 经 完成 了 特征 提取 的 大 部 分 工作 ， 我 们 可 以 把 系统 调用 序列 当做 文本 处 理 ， 每 个 系统 调用 已 经 用 数字 进行 了 编号 ， 把 每 个 编号 过 的 系统 调用 当做 一 个 单词 ， 用 N-Gram 进 行 处 理 后 ， 
再 使 用 TF-IDF 处 理 ， 以 提高 分 类 算法 性 能 。 




























































































加 载 攻 击 数据 文件 夹 下 面 的 各 个 数据 文件 ， 使 用 glob.glob 函 数 进行 枚 举人 遍历。 考虑 到 文件 分 行 的 问题 ， 在 将 文件 逐 行 读 取 完 成 后 ， 逐 行进 行 拼 接 ， 最 终 把 一 个 文件 加 载 到 一 个 字符 串 变 量 中 。 

















# 加 载 攻击 样本 
files=glob.glob ("http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/rootkit/ADFA-LD/Attack Data Master/*/*") 
for file in files: 加 下 
with open (file) as f: 
lines=f.readlines () 
x.append(" ".join (lines)) 
yY.append (1) 











使 用 同样 的 办 法 加 载 正常 样本 ， 唯 一 不 同 的 是 攻击 样本 标记 为 1， 正 常 样本 标记 为 0: 











# 加 载 正常 样本 
files=glob.glob ("http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/rootkit/ADFA-LD/Training Data Master/*") 
for file in files: 
with open (file) as 工 : 
lines=f.readlines () 
x.append(" ".join (lines)) 
y.append (0) 










































































加 载 完 原始 数据 后 ， 使 用 CountVectorizer 进 行 N-Gram 处 理 ， 这 里 N 取 3， 即 使 用 3-Gram， 设 置 ngram_range= (3，3) 即 可 。 由 于 系统 调用 已 经 使 用 数字 表示 ， 所 以 单词 切 分 使 用 的 正则 表达 式 可 
以 简化 为 token_pattern=r\b\d+\b': 











x,y=l0ad all files() 

Vectorizer = CountVectorizer( 
ngram range=(3, 3), 
token pattern=r'\b\dt\b', 
decode error='ignore', 
strip accents='ascii', 
max features=max features, 
stop_words="'english', 
max df=1.0, 
min df=1 ) 

print vectorizer 

x = vectorizer.fit transform(x) 





N-Gram 处 理 后 进行 TF-IDF 处 理 ， 提 升 分 类 算法 的 性 能 : 





transformer = TfidfTransformer (smooth idf=False) 
x=transformer.fit transform (x) 
X = X.toarray () 




















最 后 ， 随 机 划分 训练 数据 集 和 测试 数据 集 ， 其 中 测试 数据 集 比例 为 40%， 强 烈 建议 不 要 修改 这 个 经 验 值 ， 过 高 或 者 过 低 都 会 影响 对 分 类 器 性 能 的 判断 : 





x train, x test, y train, y test = train test split(x, y, test size=0.4) 





9.3 ”模型 训练 与 验证 


9.3.1 ”朴素 贝 叶 斯 算法 























使 用 支持 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 9-2 所 示 。 

















ADFA-LD 


提取 N-Gram 








TF-IDF 处 理 





训练 集 测试 集 


裤 系 贝 叶 斯 
算法 训练 


效 末 验证 


1) 将 ADFA-LD 数 据 集 的 文件 提取 N-Gram。 




















3) 随机 划分 为 训练 集 和 测试 集 。 











4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 























5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 


6) 验证 朴素 贝 叶 斯 算法 预测 效果 。 





























使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 ， 使 用 训练 数据 集 进行 训练 ， 使 用 训练 好 的 模型 在 测试 数据 集 上 进行 预测 : 




















gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 


评估 结果 的 准确 度 ， 包 括 准 确 率 和 召回 率 : 





print (classification report(y test, y pred)) 
Print metrics.confusion matrix(y test, y pred) 














使 用 3-Gram 和 TF-IDF 时 ， 整 个 系统 准确 率 为 90%， 召 回 率 为 90%，TP、FP、TN、FN 和 矩阵 见 表 9-2。 

















表 9-2 ”特征 处 理 使 用 3-Gram 和 TF-IDF 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 不 相 关 


检索 到 17 
未 检索 到 259 





完整 输出 结果 为 : 





CountVectorizer (analyzer=u'word', binary=False, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=]1.0, max features=1000, min df=1, 
ngram range=(3, 3), preprocessor=None, stop words="english', 
strip accents='ascii', token pattern='\\b\\d+\\b', tokenizer=None, 
Vocabulary=None) 


Precision recall fl-score support 
0 0.87 0.95 0.91 328 
1 0.94 0.85 0.89 304 
avg / total 0.90 0.90 0.90 632 
LIS1L 1 
[ 45 259]] 





9.3 ”模型 训练 与 验证 


9.3.1 ”朴素 贝 叶 斯 算法 























使 用 支持 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 9-2 所 示 。 

















ADFA-LD 


提取 N-Gram 








TF-IDF 处 理 





训练 集 测试 集 


裤 系 贝 叶 斯 
算法 训练 


效 末 验证 


1) 将 ADFA-LD 数 据 集 的 文件 提取 N-Gram。 




















3) 随机 划分 为 训练 集 和 测试 集 。 











4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 























5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 


6) 验证 朴素 贝 叶 斯 算法 预测 效果 。 




















使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 ， 使 用 训练 数据 集 进行 训练 ， 使 









































训练 好 的 模型 在 测试 数据 集 上 进行 预测 : 





gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 


评估 结果 的 准确 度 ， 包 括 准 确 率 和 召回 率 : 


print (classification report(y test, y pred)) 
Print metrics.confusion matrix(y test, y pred) 














使 用 3-Gram 和 TF-IDF 时 ， 整 个 系统 准确 率 为 90%， 召 回 率 为 90%，TP、FP、TN、FN 和 矩阵 见 表 9-2。 

















表 9-2 ”特征 处 理 使 用 3-Gram 和 TF-IDF 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 
检索 到 
未 检索 到 
完 吾 输 出 结果 为 : 


CountVectorizer (analyzer=u'word', binary=False, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content' 
lowercase=True, max df=]1.0, max features=1000, min df=1, 
ngram range=(3, 3), preprocessor=None, stop words="'english', 


’ 


strip accents='ascii', token pattern='\\b\\d+\\b', tokenizer=None, 


vocabulary=None ) 


precision recall fl-score support 
0 0.87 0.95 0.91 328 
1 0.94 0.85 0.89 304 
avg / total 0.90 0.90 0.90 632 
LIS1L 1 
[ 45 259]] 








9.3.2 XGBoost 算 法 
































使 用 XGBoost 算 法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 完整 的 处 理 流程 如 图 


二 


将 ADFA-LD 数 据 集 的 文件 提取 N-Gram。 








2) 使 用 TF-IDF 处 理 。 


3) 随机 划分 为 训练 集 和 测试 集 。 








4) 使 用 XGBoost 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








6) 验证 XGBoost 算 法 预测 效果 。 





























使 用 XGBoost 算 法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 : 


9-3 所 示 。 








xgb model = xgb.XGBClassifier().fit(x train, y train) 
y_pred = xgb model.predict (x test) 













ADFA-LD 
样本 数据 


提取 N-Gram 
TF-IDF 处 理 


样本 划分 


XGBoost 
算法 训练 


测试 集 





效 末 验证 
的 XGBoost 算 法 处 理 流程 














评估 结果 的 准确 度 ， 包 括 准 确 率 和 召回 率 : 





print (classification report(y test, y pred)) 
print metrics.confusion matrix(y test, y pred) 




















类 型 名 称 
检索 到 
未 检索 到 


完整 输出 结果 为 : 


使 用 3-Gram 和 TF-IDF 时 ， 整 个 系统 准确 率 为 94%， 召 回 率 为 94%，TP、FP、TN、FN 和 矩阵 见 表 9-3。 


表 9-3 ”特征 处 理 使 用 3-Gram 和 TF-IDF 模 型 的 XGBoost 验 证 结果 





不 相 关 
11 


279 








3-Gramg&gtf-idf and xgboost 
precision recall fl-score support 
0.93 0.97 0.95 328 


二 0.96 0.92 0.94 304 
avg / total 0.94 0.94 0.94 632 
上 EL 了 
[ 25 279]] 


9.3.3 ”深度 学 习 算法 之 多 层 感知 机 









































使 用 多 层 感知 机 算法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 9-4 所 示 。 


ADFA-LD 
样本 数据 


提取 N-Gram 









TF-IDF 处 理 


样本 划分 










di 测试 集 





多 层 感知 机 
算法 训练 





效 朱 验证 


1) 将 ADFA-LD 数 据 集 的 文件 提取 N-Gram。 




















3) 随机 划分 为 训练 集 和 测试 集 。 








4) 使 用 多 层 感知 机 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





6) 验证 多 层 感知 机 算法 预测 效果 。 




















使 用 多 层 感知 机 算法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 : 














clf = MLPClassifier (solver="'lbfgs', 
alpha=le-5, 
hidden layer sizes = (10, 4), 
random state = 1) 

clf.fit (x train, y train) 

Y_pred = clf.predict (x test) 


评估 结果 的 准确 度 ， 包 括 准确 率 和 召回 率 : 


print (classification report(y test, y pred)) 
print metrics.confusion matrix(y test, y pred) 

















使 用 3-Gram 和 TF-IDF 时 ， 整 个 系统 准确 率 为 94%， 召 回 率 为 94%，TP、FP、TN、FN 和 矩阵 见 表 9-4。 











表 9-4 ”特征 处 理 使 用 3-Gram 和 TF-IDF 模 型 的 多 层 感知 机 验证 结果 


类 型 名 称 不 相 关 








八 帮 
检索 到 23 
“上 八成 
未 检索 到 288 
完整 输出 结果 为 : 
Precision recall fl-score support 
0 0.95 0.93 0.94 
1 0.93 0:95 0.94 304 
avg / total 0.94 0.94 0.94 632 
LL305 23] 
[ 16 288]] 


9.4 本章 小 结 


本 章 主 要 以 ADFA-LD 数 据 集 为 例子 介绍 Linux 系 统 的 后 门 检测 ， 使 用 特征 提取 方法 为 N-Gram 和 TF-IDF 模 型 ， 介 绍 的 分 类 算法 包括 朴素 贝 叶 斯 、XGBoost 和 深度 学 习 之 多 层 感知 机 ， 其 中 XGBoost 和 多 
层 感 知 机 效果 较 好 。N-Gram 的 N 的 取 值 对 分 类 效果 有 一 定 的 影响 ， 有 兴趣 的 读者 可 以 尝试 2-Gram 以 及 4-Gram。 














第 10 章 “用户 行为 分 析 与 恶意 行为 检测 


尽管 包括 数据 防 泄露 (Data Leakage Prevertion，DLP) 在 内 的 众多 安全 产品 已 被 添加 到 企业 网 络 安全 战略 中 ， 但 是 确保 机 密 数 据 和 资产 的 安全 仍 是 企业 和 组 织 面临 的 一 大 挑战 。 据 美国 波 耐 蒙 研究 所 
2015 年 的 一 项 调查 显示 ， 目 前 损失 最 为 惨重 的 网 络 犯罪 案件 多 数 是 由 企业 内 部 人 员 监 守 自 资 导致 ， 其 次 才 是 分 布 式 拒绝 服务 攻击 (DDoS) 和 基于 Web 的 攻击 。 



















































































与 企业 内 部 人 员 监 守 自 盗 导 致 危 害 同样 巨大 的 还 有 内 部 员工 的 异常 操作 。2017 年 1 月 31 日 23: 00 左 右 ，GitLab 一 名 系统 管理 员 在 极度 疲劳 的 情况 下 ， 尝 试 删 除 一 个 空 的 目录 ， 结 果 指令 发 往 了 另外 一 台 
服务 器 的 命令 窗口 ， 等 他 回 过 神 来 的 时 候 ，27 分 钟 过 去 ， 终 止 删除 操作 为 时 已 晚 ， 大 约 300GB 左 右 的 数据 只 剩 下 约 4.5GB。GitLab.com 丢 失 了 6 小 时 的 数据 库 数 据 。2017 年 4 月 5 日 ， 知 名 的 VPS 服 务 商 
DigitalOcean 出 现 了 一 次 删除 生产 数据 库 的 事故 。 删 库 导致 DigitalOcean 的 控制 面板 和 API 无 法 正常 使 用 ， 时 间 长 达 4 小 时 56 分 。DigitalOcean 官 博 撰文 致 娄 ， 并 说 明了 事故 前 后 过 程 : “在 2017 年 4 月 5 
10: 24， 我 们 开始 收 到 公共 服务 功能 失效 的 警报 。 在 警报 最 初 的 3 分 钟 ， 我 们 发 现 主 数据 库 已 经 被 删除 了 。4 分 钟 后 ， 我 们 开始 从 一 台 有 延迟 的 数据 库 副 本 着 手 恢复 。 在 接 下 来 的 4 个 小 时 中 ， 我 们 复制 并 把 
数据 恢复 到 主 备 副本 。 服 务 中 断 这 么 长 时 间 ， 主 要 是 因为 从 副本 把 数据 恢复 到 在 线 服务 器 这 个 过 程 非常 耗 时 。” 此 次 事故 的 根本 原因 是 工程 师 的 配置 错误 ， 有 个 用 于 自动 化 测试 的 程序 ， 错 误 使 用 了 生产 环 
境 的 证 书 [1]。 


































































































































































































我 们 将 恶意 内 部 人 员 和 内 部 员工 的 异常 操作 统称 为 恶意 操作 。 检 测 这 种 恶意 操作 需要 使 用 高 级 技术 ， 比 如 用 户 行为 分 析 (User Behawiors Analysis，UBA) ， 这 种 新 兴 技 术 可 提供 以 往 被 遗漏 的 数据 保 
护 和 欺诈 检测 功能 。 结 合用 户 日 常 操作 的 系统 ，UBA 利 用 一 种 专门 的 安全 分 析 算 法 ， 不 仅 可 以 关注 初始 登录 操作 ， 还 能 跟踪 用 户 的 一 举 一 动 。UBA 有 两 个 主要 功能 : 它 有 助 于 为 用 户 执行 的 正常 活动 确立 基 
线 ; 迅速 识别 偏离 正常 行为 的 异常 行为 ， 以 便 安全 分 析 员 执行 调查 。 某 些 异常 行为 可 能 乍 一 看 不 是 恶意 的 ， 但 是 这 需要 安全 分 析 员 进一步 调查 情况 ， 以 确定 它 是 合法 行为 还 是 恶意 行为 外 































































































本 章 基 于 SEA 数据 集 介 绍 UBA 的 一 个 典型 应 用 场景 ， 即 恶意 操作 行为 检测 。 


[1] http://www.sohu.com/a/149320645_151779 


[2] http://www.hansight.com/news-catch-insider-threats-with-user-behavior-analytics.html 























2001 年 Schonlau 等 人 第 一 次 将 内 部 攻击 者 分 类 成 叛徒 (Traitor) 与 伪装 者 (Masque-rader) ， 其 中 叛徒 指 来 源 于 组 织 内 部 的 攻击 者 ， 其 本 身 是 内 部 合法 用 户 ; 而 伪装 者 指 外 部 攻击 者 窃取 了 内 部 合法 





























SEA 数据 集 涵盖 70 多 个 UNIX 系 统 用 户 的 行为 日 志 ， 这 些 数 拉 


户 的 身 人 























cpp 
sh 


xrdb 
cpp 





























凭证， 从 而 利用 内 部 








户 身份 实施 内 部 攻击 。 随 后 该 团队 构造 了 一 个 





户 的 命令 随机 搬入， 模拟 作为 内 部 伪装 者 发 起 的 攻击 。 


中 含有 恶意 








个 公开 的 检测 伪装 者 攻击 的 数据 集 SEA， 该 数据 被 广泛 




















居 来 自 UNIX 系 统 记录 的 用 户 使 用 的 命令 。SEA 数 据 集中 每 个 用 户 都 采集 了 15000 条 命令 ， 从 用 户 集 




















指令 的 概率 为 1%， 





SEA 数据 集中 的 











户 日 志 类 似 于 图 











中 都 是 白 样本 ， 所 以 本 章 的 样本 划分 需 


Schonlau 在 他 的 个 人 网 站 ( 见 





http://www.schonlau.net 


图 











以 连续 会 话 关联 的 攻击 行为 。 另 外 ，SEA 数 据 集中 黑 样 本 偏 少 ， 
要 特殊 处 理 ， 保 证 训练 集中 有 足够 的 是 














10-1 中 的 命令 序列 。 





图 10-1 SEA 数据 集中 的 命令 序列 








户 的 数据 按照 连续 的 100 个 命令 一 组 分 为 150 个 块 ， 前 三 分 之 一 数据 块 用 作 训练 该 





























虽然 这 更 接近 实 























10-2) 上 发 布 了 SEA 数据 集 ， 地 址 为 : 


时 样本 。 


际 情况 ， 




















于 内 部 伪装 者 威胁 检测 研究 [1]。 




















合 中 随机 抽取 50 个 用 户 作 为 正常 用 户 ， 秋 



































户 正常 行为 模型 ， 剩 余 三 分 之 二 数据 块 随机 插入 了 测试 用 的 恶意 数据 。SEA 数 据 集中 恶意 数据 的 分 布 具有 统计 
而 当 一 个 命令 块 中 含有 恶意 指令 ， 则 后 续 命令 块 也 含有 恶意 指令 的 概率 达到 80% 上 四。 可 以 看 出 SEA 数据 集 将 连续 数据 块 看 作 一 个 会 话 ， 
但 是 却 给 我 们 在 随机 划分 训练 集 和 测试 集 时 带 来 了 挑战 ， 如 果 使 用 常见 的 划分 方法 ， 有 相当 大 的 概率 训练 集 
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Masquerading User Data 


Publications 


We have collected a data set with seeded masquerading users to compare various intrusion 
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Book on Web 


masqueraders and are intended as training data. The next 10,000 commands can be thought of as 


100 blocks of 100 commands each. They are seeded with masquerading users, i.e. with data of 


The data consist of 50 files corresponding to one user each. Each file contains 15,000 commands 
another user not among the 50 users. 


(audit data generated with acct). The first 5000 commands for each user do not contain any 


Students 


Teaching 


At any given block after the initial 5000 commands a masquerade starts with a probability of 1%. If 


the previous block was a masquerade, the next block will also be a masquerade with a probability of 


80%. About 5% of the test data contain masquerades. 


Stata Software 


Masquerading 
User Data 


This data set is used in an article in Statistical Science (see publications on the left), For further 


information please consult this article or contact me. 


。 Masquerade Data (zip File) Uncompress using WinZip. 


Space (Software) 


uncompress (gunzip), and de-tar (tar -x) the data set. 
This contains 50 files, one each for 50 users. Each file contains 15000 lines. Each line has one 


command. 


e Location of masquerades (WIndows ascii file) 


ni 
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Finishing a Ph.D. 





个 人 网 站 


图 10-2 Schonlau 





另外 需要 注意 的 是 ，SEA 数 据 集 的 标记 数据 在 网 站 上 ， 并 没有 和 数据 文件 保存 在 一 个 压缩 包 里 ， 需 要 从 网 站 上 复制 下 来 保存 在 一 个 文本 文件 中 ， 其 中 0 表示 正常 操作 ，1 表 示 异 常 操作 ， 如 图 10-3 所 示 。 
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10-3 SEA 数据 集 的 标记 数据 














[1] http://www.schonlau.net/ 


四 杨 光 , 吴 钰 . 内 部 攻击 实验 数据 集 四 . 电脑 知识 与 技术 ,2016,12. 


寺 征 提取 


10.2 


词 袋 和 TF-IDF 模 型 


10.2.1 


我 们 使 用 最 常见 的 词 袋 模型 提取 文本 特征 ， 把 每 个 操作 命令 当做 一 个 单词 处 理 即 可 。SEA 数 据 集 的 数据 文件 把 连续 的 100 个 操作 命令 作为 一 个 操作 序列 ， 这 样 15000 个 操作 命令 就 可 以 划分 成 150 个 操作 


序列 。 














数据 文件 处 理 过 程 如 图 10-4 所 示 。 


15000 个 
操作 他 令 






文件 读 取 


形状 为 
( 1. 15000 ) 的 向 量 


向 量 形状 转换 


( 150, 100 ) 的 回 量 





图 10-4 SEA 数据 集 数据 文件 处 理 过 程 


户 User7 的 数据 文件 ， 得 到 一 个 形状 为 (1，15000) 的 向 量 ， 使 用 NumPy 的 reshape 函 数 把 该 向 量 转换 为 形状 为 (150，100) 的 向 量 : 
































代码 实现 如 下 所 示 ， 使 用 NumPy 的 loadtxt 函 数 读 取 第 7 个 











x=np.loadtxt (cmdlines file,dtype=str) 
x=x.reshape ( (150,100)) 





第 7 个 用 户 User7 的 数据 文件 的 路 径 为 : 




















http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/uba/MasqueradeDat/User7 





SEA 数 据 集 的 标记 文件 ， 记 录 了 数据 文件 对 应 的 标记 ，1 表 示 为 异常 操作 ，0 表 示 为 正常 操作 ， 标 记 的 单位 为 操作 序列 ， 也 就 是 说 如 果 连 续 100 个 系统 操作 都 为 正常 操作 才 会 标记 为 0， 反 之 ， 如 果 连 续 



































100 个 系统 操作 中 包含 异常 操作 ， 该 操作 序列 标记 为 1。 由 于 SEA 数据 集 每 个 用 户 的 前 50 个 操作 序列 都 是 正常 操作 ， 所 以 标记 文件 仅 从 第 51 个 操作 序列 开始 标记 ， 一 共有 100 行 ， 每 行 有 50 列 分 别 代表 50 个 
户 的 操作 序列 的 标记 ， 以 第 7 个 用 户 为 例 ， 其 对 应 的 操作 序列 的 标记 在 第 7 列 ， 一 共 100 个 。 标 记 文件 处 理 过 程 如 图 10-5 所 示 。 
















































标记 文件 


文件 读 取 








( 100, 1 ) 的 癌 量 (50, 1 ) 的 问 量 


回 量 拼接 相 加 


形状 为 
( 150, 1 ) 的 回 量 


图 10-5 SEA 数据 集 标记 文件 处 理 过 程 





代码 实现 如 下 ， 使 用 NumPy 的 loadtxt 函 数 读 取 标记 文件 的 第 7 列 ，NumPy 数 组 编号 与 C 语 言 一 样 从 0 开始 ， 所 以 第 7 列 标 号 usecols 为 6， 将 得 到 的 向 量 转换 为 形状 为 (100，1) 的 向 量 。SEA 数 据 集 前 
50 个 操作 序列 为 正常 序列 ， 所 以 初始 化 向 量 的 前 50 个 为 0， 然 后 再 与 标记 文件 中 获取 的 向 量 相 加 ， 得 到 形状 为 (150，1) 的 向 量 : 








y=np.1loadtxt (labels file, dtype=int,usecols=6) 
y=y.reshape ( (100, 1)) 
y_train=np.zeros([50,1],int) 

y=np.concatenate([y trainvy]) 

y=y.reshape ( (150, )) 








其 中 标记 文件 的 路 径 为 : 





labels file="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/uba/MasqueradeDat/label .txt" 








使 用 Scikit-Learn 的 CountVectorizer 函 数 进 行 词 袋 化 处 理 ， 本 例 中 处 理 的 数据 集 均 为 英文 ， 所 以 针对 decode_error 直 接 忽略 ， 使 用 ijgnore 方 式 ，stop_words 的 方式 使 用 english，strip_accents 方 式 为 
asci 方 式 : 








Vectorizer = CountVectorizer( 
decode_ error='ignore', 
strip accents="'ascii', 
max_ features=max feature < 把 
StoP_words='english'v 
max df=1.0, 
min df=1 ) 








与 其 他 例子 不 一 样 的 地 方 是 ，SEA 数 据 集 的 黑 样 本 特别 少 ， 如 果 随机 分 配 数 据 成 训练 集 和 测试 集 ， 非 常 容 易 出 现 训 练 集 没 有 黑 样本 的 情况 。 折 中 处 理 的 办 法 是 ， 手 工 指定 训练 集 和 测试 集 ， 通 过 设置 全 
局 变量 index 可 以 控制 数据 集 的 分 配 : 








x train=x[0:index, ] 
x_ test=x[index:, ] 
y_train=y[0:index,] 
y_test=y[index:,] 





TF-IDF 与 词 袋 模型 结合 后 可 以 提高 分 类 算法 的 性 能 ， 我 们 使 用 TF-IDF 将 词 袋 模型 生成 的 数据 做 进一步 处 理 : 








transformer = TfidfTransformer (smooth idf=False) 
transformer .fit (x) 

x test = transformer.transform(x test) 

x train = transformer.transform(x train) 





10.2 ”特征 提取 


10.2.1 词 绕 和 和 TF-IDF 模 型 











我 们 使 用 最 常见 的 词 袋 模 型 提取 文本 特征 ， 把 每 个 操作 命令 当做 一 个 单词 处 理 即 可 。SEA 数 据 集 的 数据 文件 把 连续 的 100 个 操作 命令 作为 一 个 操作 序列 ， 这 样 15000 个 操作 命令 就 可 以 划分 成 150 个 操作 
序列 。 数 据 文件 处 理 过 程 如 图 10-4 所 示 。 


























形状 为 
( 1 15000 ) 的 回 量 





可 量 形 状 转换 


( 150, 100 ) 的 向 量 








10-4 SEA 数据 集 数据 文件 处 理 过 程 











户 User7 的 数据 文件 ， 得 到 一 个 形状 为 《1，15000) 的 向 量 ， 使 用 NumPy 的 reshape 函 数 把 该 向 量 转换 为 形状 为 (150，100) 的 向 量 : 
































代码 实现 如 下 所 示 ， 使 用 NumPy 的 loadtxt 函 数 读 取 第 7 个 





x=np.loadtxt (cmdlines file,dtype=str) 
x=x.reshape ( (150, 100)) 








第 7 个 用 户 User7 的 数据 文件 的 路 径 为 : 

















http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/uba/MasqueradeDat/User7 





SEA 数 据 集 的 标记 文件 ， 记 录 了 数据 文件 对 应 的 标记 ，1 表 示 为 异常 操作 ，0 表 示 为 正常 操作 ， 标 记 的 单位 为 操作 序列 ， 也 就 是 说 如 果 连 续 100 个 系统 操作 都 为 正常 操作 才 会 标记 为 0， 反 之 ， 如 果 连 续 























100 个 系统 操作 中 包含 异常 操作 ， 该 操作 序列 标记 为 1。 由 于 SEA 数据 集 每 个 用 户 的 前 50 个 操作 序列 都 是 正常 操作 ， 所 以 标记 文件 仅 从 第 51 个 操作 序列 开始 标记 ， 一 共有 100 行 ， 每 行 有 50 列 分 别 代表 50 个 
户 的 操作 序列 的 标记 ， 以 第 7 个 用 户 为 例 ， 其 对 应 的 操作 序列 的 标记 在 第 7 列 ， 一 共 100 个 。 标 记 文件 处 理 过 程 如 图 10-5 所 示 。 
















































标记 文件 


文件 读 取 








( 100, 1 ) 的 癌 量 (50, 1 ) 的 问 量 


回 量 拼接 相 加 


形状 为 
( 150, 1 ) 的 回 量 


图 10-5 SEA 数据 集 标记 文件 处 理 过 程 





代码 实现 如 下 ， 使 用 NumPy 的 loadtxt 函 数 读 取 标记 文件 的 第 7 列 ，NumPy 数 组 编号 与 C 语 言 一 样 从 0 开始 ， 所 以 第 7 列 标 号 usecols 为 6， 将 得 到 的 向 量 转换 为 形状 为 (100，1) 的 向 量 。SEA 数 据 集 前 
50 个 操作 序列 为 正常 序列 ， 所 以 初始 化 向 量 的 前 50 个 为 0， 然 后 再 与 标记 文件 中 获取 的 向 量 相 加 ， 得 到 形状 为 (150，1) 的 向 量 : 








y=np.1loadtxt (labels file, dtype=int,usecols=6) 
y=y.reshape ( (100, 1)) 
y_train=np.zeros([50,1],int) 

y=np.concatenate([y trainvy]) 

y=y.reshape ( (150, )) 








其 中 标记 文件 的 路 径 为 : 





labels file="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/uba/MasqueradeDat/label .txt" 








使 用 Scikit-Learn 的 CountVectorizer 函 数 进 行 词 袋 化 处 理 ， 本 例 中 处 理 的 数据 集 均 为 英文 ， 所 以 针对 decode_error 直 接 忽略 ， 使 用 ijgnore 方 式 ，stop_words 的 方式 使 用 english，strip_accents 方 式 为 
asci 方 式 : 








Vectorizer = CountVectorizer( 
decode_ error='ignore', 
strip accents="'ascii', 
max_ features=max feature < 把 
StoP_words='english'v 
max df=1.0, 
min df=1 ) 








与 其 他 例子 不 一 样 的 地 方 是 ，SEA 数 据 集 的 黑 样 本 特别 少 ， 如 果 随机 分 配 数 据 成 训练 集 和 测试 集 ， 非 常 容 易 出 现 训 练 集 没 有 黑 样本 的 情况 。 折 中 处 理 的 办 法 是 ， 手 工 指定 训练 集 和 测试 集 ， 通 过 设置 全 
局 变量 index 可 以 控制 数据 集 的 分 配 : 








x train=x[0:index, ] 
x_ test=x[index:, ] 
y_train=y[0:index,] 
y_test=y[index:,] 





TF-IDF 与 词 袋 模型 结合 后 可 以 提高 分 类 算法 的 性 能 ， 我 们 使 用 TF-IDF 将 词 袋 模型 生成 的 数据 做 进一步 处 理 : 








transformer = TfidfTransformer (smooth idf=False) 
transformer .fit (x) 

x test = transformer.transform(x test) 

x train = transformer.transform(x train) 





10.2.2， 词 袋 和 N-Gram 模 型 





























N-Gram 是 自然 语言 处 理 中 一 个 非常 重要 的 概念 ， 通 常 在 NLP 中 ， 人 们 基于 一 定 的 语料库 ， 可 以 利用 N-Gram 来 预计 或 者 评估 一 个 句子 是 否 合理 。N-Gram 的 另外 一 个 作用 是 ， 评 估 两 个 字符 串 之 间 的 差 
异 程度 。 本 章 结合 词 袋 和 N-Gram 模 型 ， 对 SEA 数 据 集 进行 特征 提取 ， 每 个 系统 操作 命令 作为 一 个 单词 处 理 ， 连 续 的 N 个 系统 操作 命令 作为 一 个 N-Gram。 假 设 具 有 如 下 操作 序列 : 









































pwd ls cp mv 





2-Gram 处 理 后 的 结果 为 : 





(Pwd 1s) 
(ls cp) 
(cp mv) 





3-Gram 处 理 后 的 结果 为 : 





(pwd 1s cp) 
(ls cp mv) 

















也 有 将 2-Gram 和 3-Gram 同 时 使 用 的 ， 处 理 后 的 结果 为 : 











(pwd 1s) 
(ls cp) 
(cp mv) 
(pwd 1s cp) 
(ls cp mv) 

















由 此 可 见 ，N-Gram 可 以 比较 好 地 体现 连续 N 个 操作 命令 的 关系 ， 这 在 一 定 程度 上 体现 了 系统 管理 员 使 用 系统 命令 的 操作 习惯 。 





























代码 实现 与 词 袋 模型 的 处 理 几 乎 完全 相同 ， 只 是 使 用 CountVectorizer 的 时 候 需 要 通过 设置 ngram_range 参 数 来 设 定 N-Gram 的 提取 方法 ，ngram_range= (2，4) 表示 同时 使 用 2-Gram、3-Gram 和 


4-Gram : 














Vectorizer = CountVectorizer( 
ngram range=(2, 4), 
token pattern=r'\b\wt\b', 
decode error='ignore', 
strip accents="'ascii', 
max_ features=max feature Sy 
stop words='english', 
max_ df=1.0, 
min df=1 ) 





10.2.3 ”词汇 表 模型 


























词 袋 模 型 可 以 很 好 地 表现 文本 由 哪些 单词 组 成 ， 但 是 却 无 法 表达 出 单词 之 间 的 前 后 关系 ， 于 是 人 们 借鉴 了 词 袋 模型 的 思想 ， 使 用 生成 的 词汇 表 对 原 有 句子 按照 单词 逐个 进行 编码 。 在 本 例 中 ,使 
TensorFlow 的 tflearn.data_utils.VocabularyProcessor 函 数 即 可 : 

















vp=tflearn.data utils.VocabularyProcessor (max document length=max featuresy 
min frequency=0, 本 
Vocabulary=Noney 
tokenizer fn=None) 
x=vp.fit transform(x, unused y=None) 
x = np.array (list (x)) - 





10.3 ”模型 训 





练 与 验证 


10.3.1 ”朴素 贝 叶 斯 算法 














使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 10-6 所 示 。 

















样本 


提取 词 袋 


样本 划分 









训练 集 测试 集 


朴 系 贝 叶 斯 
算法 训练 


效 末 验证 





1) 读 取 SEA 数 据 集 数 据 。 


2) 提取 词 袋 。 
3) TF-IDF 处 理 。 


4) 手工 划分 训练 集 和 测试 集 。 











5) 使 用 朴素 贝 叶 斯 算法 在 训练 模型 上 训练 。 




















6) 使 用 朴素 贝 叶 斯 算法 在 测试 集 上 进行 预测 。 








7) 验证 朴素 贝 叶 斯 算法 预测 效果 。 























使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 和 TF-IDF 模 型 ， 在 训练 集合 上 训练 ， 使 用 训练 好 的 模型 在 测试 集合 上 预测 : 























gnb = GaussianNB () 
gnb.fit (x train,y _ train) 
y_pred=gnb.predict (x_ test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print (classification report(y test, y pred)) 
print metrics.confusion matrix(y test, y_ pred) 














在 词 袋 最 大 特征 数 为 100 的 情况 下 ， 使 用 词 袋 和 TF-IDF 模 型 时 ， 整 个 系统 准确 度 为 96%， 召 回 率 为 96%，TP、FP、TN、FN 矩 阵 见 表 10-1。 





表 10-1 基于 词 袋 和 TF-IDEF 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 
检索 到 
未 检索 到 





完整 输出 结果 为 : 





nb and wordbag 
max features=100 


precision recall fl-score support 

0 0.98 0.97 0.98 64 

. dL 0.83 dT1 6 

avg / total 0.96 0.96 0.96 70 
[[62 2] 


[1 5] 


10.3 ”模型 训练 与 验证 





10.3.1 ”朴素 贝 叶 斯 算法 














使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 和 TF-1DF 模 型 ， 完 整 的 处 理 流程 如 图 10-6 所 示 。 

















样本 


提取 词 袋 


样本 划分 









训练 集 测试 集 


朴 系 贝 叶 斯 
算法 训练 


效 末 验证 





1) 读 取 SEA 数 据 集 数 据 。 


2) 提取 词 袋 。 
3) TF-IDF 处 理 。 


4) 手工 划分 训练 集 和 测试 集 。 











5) 使 用 朴素 贝 叶 斯 算法 在 训练 模型 上 训练 。 




















6) 使 用 朴素 贝 叶 斯 算法 在 测试 集 上 进行 预测 。 








7) 验证 朴素 贝 叶 斯 算法 预测 效果 。 





























使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 和 TF-IDF 模 型 ， 在 训练 集合 上 训练 ， 使 用 训练 好 的 模型 在 测试 集合 上 预测 : 

















gnb = GaussianNB () 
gnb.fit (x train,y _ train) 
y_pred=gnb.predict (x_ test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print (classification report(y test, y pred)) 
print metrics.confusion matrix(y test, y_ pred) 

















在 词 袋 最 大 特征 数 为 100 的 情况 下 ， 使 用 词 袋 和 TF-IDF 模 型 时 ， 整 个 系统 准确 度 为 96%， 召 回 率 为 96%，TP、FP、TN、FN 矩 阵 见 表 10-1。 


表 10-1 基于 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 
检索 到 
未 检索 到 





完整 输出 结果 为 : 





nb and wordbag 
max features=100 


precision recall fl-score support 

0 0.98 0.97 0.98 64 

. dL 0.83 dT1 6 

avg / total 0.96 0.96 0.96 70 
[[62 2] 
[1 5] 


10.3.2 XGBoost 算 法 











网 


10-7 所 示 。 




















使 用 XGBoost 算 法 ， 特 征 提取 使 用 词 袋 科 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 














系统 命令 


样本 





TF-IDEF 处 理 


样本 划分 





训练 集 测试 集 


XCGBoost 
算法 训练 


效 末 验证 


aa 


读 取 SEA 数 据 集 数 据 。 


2) 提取 词 袋 。 


Wu 


TF-IDF 处 理 。 


4) 手工 划分 训练 集 和 测试 集 。 








5) 使 用 XGBoost 算 法 在 训练 模型 上 训练 。 




















6) 使 用 XGBoost 算 法 在 测试 集 上 进行 预测 。 





wh 


验证 XGBoost 算 法 预测 效果 。 














使 用 XGBoost 算 法 ， 特 征 提取 使 用 词 袋 和 TF-1IDF 模 型 : 




















xgb model = xgb.XGBClassifier() .fit(x train, y _ train) 
y_Pred = xgb model.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print (classification report(y test, y pred)) 
Print metrics.confusion matrix(y test, y pred) 











在 词 袋 最 大 特征 数 为 100 的 情况 下 ， 使 用 词 袋 和 TF-1IDF 模 型 时 ， 整 个 系统 准确 度 为 96%， 召 回 率 为 96%，TP、FP、TN、FN 矩 阵 见 表 10-2。 








表 10-2 ”基于 词 袋 和 TF-IDF 模 型 的 XGBoost 算 法 验证 结果 


类 型 名 称 
仿 索 到 
未 检索 到 





完整 输出 结果 为 : 





xgboost and wordbag 
max features=100 


precision recall fl-score support 
0 0.96 1.00 0.98 64 
1 1.00 0.50 0.67 6 
avg / total 0.96 0.96 0.95 70 
[[64 0] 
[3 3]] 





























使 用 XGBoost 算 法 ， 特 征 提取 使 用 词 袋 和 和 N-Gram 模 型 ， 完 整 处 理 流程 如 图 10-8 所 示 。 

















样本 





样本 划分 


X(IBoost 
算法 训练 






效 示 验证 


1) 读 取 SEA 数据 集 数据 。 


2) 提取 词 袋 。 


3) N-Gram 处 理 。 


4) 手工 划分 训练 集 和 测试 集 。 











5) 使 用 XGBoost 算 法 在 训练 模型 上 训练 。 














6) 使 用 XGBoost 算 法 在 测试 集 上 预测 。 








7) 验证 XGBoost 算 法 预测 效果 。 








在 词 袋 最 大 特征 数 为 100 的 情况 下 ， 使 用 词 袋 和 N-Gram 模 型 时 ， 整 个 系统 准确 度 为 100%， 召 回 率 为 100%，TP、FP、TN、FN 答 阵 见 表 10-3。 








表 10-3 ”基于 词 伐 和 N-Gram 模 型 的 XGBoost 算 法 验证 结果 


类 型 名 称 
检索 到 
未 检索 到 





完整 输出 结果 为 : 





xgboost and ngram 
max_features=1000 


Precision recall fl-score support 

0 Ts 1.00 1.00 64 

业 1.00 TO 1.00 6 

avg / total 1.00 1.00 1.00 70 
[[64 0] 
[0 6]] 





10.3.3” 隐 式 马 尔 可 夫 算 法 




















之 前 我 们 都 是 使 用 监督 学 习 的 方式 ， 基 于 黑白 训练 集 进行 数据 挖掘 ， 但 是 在 绝 大 多 数 的 情况 下 ， 相 对 于 和 白 样本 ， 黑 样本 都 是 十 分 稀少 的 ， 在 本 小 节 我 们 尝试 使 用 隐 式 马尔 可 夫 算 法 ， 完 全 基于 SEA 数据 
集 的 白 样 本 ， 即 使 用 前 50 个 正常 操作 序列 进行 训练 ， 建 立 所 谓 的 正常 行为 基线 ， 然 后 通过 异常 识别 ， 发 现 疑 似 的 异常 操作 。 

























































































使 用 隐 式 马尔 可 夫 算 法 ， 特 征 提取 使 用 词汇 表 模 型 ， 完 整 的 处 理 流程 如 图 10-9 所 示 。 








系统 命令 


提取 词汇 表 





隐 式 马尔 可 夫 





算法 训练 


效 采 验证 


图 10-9 ”特征 提取 使 用 词汇 表 模 型 的 隐 式 马尔 可 夫 算 法 处 理 流程 


1) 读 取 SEA 数 据 集 数 据 。 


2) 提取 词汇 表 。 


3) 手工 划分 训练 集 和 测试 集 。 











4) 使 


隐 式 马尔 可 夫 算 法 在 训练 模型 上 训练 。 














5) 使 


隐 式 马尔 可 夫 算 法 在 测试 集 上 进行 异常 检测 。 





6) 验证 隐 式 马尔 可 夫 算 法 预测 效果 。 








隐 式 马尔 可 夫 算法 使 用 开源 的 hmmlearn 库 ，hmmlearn 的 安装 非常 简单 ， 以 mac 为 例 ， 使 用 如 下 命令 即 可 : 




















sudo pip install hmmlearn 














使 用 隐 式 马尔 可 夫 算 法 ， 特 征 提取 词汇 表 : 








remodel = hmm.GaussianHMM(n_ components=N, covariance type="full", n iter=100) 
remodel .fit (X, lengths) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print (classification report(y test, y predict)) 
print metrics.confusion matrix(y test, y predict) 














其 中 设置 阔 值 T， 当 测试 样本 与 正常 行为 基线 的 相似 度 小 于 T 时 ， 认 为 是 疑似 异常 操作 : 





Y_Pred=remode1.score (z) 
print y pred 
if y pred < T: 
y_predict .append (1) 
elase: 
y_predict .append (0) 




















如 何 找到 合适 的 T 值 呢 ? 我 们 这 里 介绍 一 种 常见 的 办 法 一 一 使 用 类 似 遍历 的 办 法 。 我 们 先 设置 T 逐 渐变 大 ， 然 后 计算 不 同 T 值 下 对 准确 率 和 召 
确 率 为 例 ， 设 置 T7 从 -1000 到 0 依次 变 大 ， 每 次 增加 100: 














回 





率 的 影响 ， 比 较 直 观 的 方式 是 通过 画图 来 判断 趋势 。 以 准 



































for T in range(-1000,0,100): 





记录 下 每 次 T 值 以 及 对 应 的 准确 率 : 





y_predict = np.array (ly_predict) 
precision=precision scorel(y test,y predict) 
a.append (T) 

b.append (precision) 

















使 用 matplotlib 绘 图 ， 画 出 折线 图 ， 横 坐标 为 T 值 ， 纵 坐标 为 对 应 的 准确 度 : 
































plt.plot (a, b, 'r') 

plt.xlabel ("lo0og probability") 

plt.ylabel ("metrics.precision") 

plt.title ("metrics.precisiongmetrics.recalls") 
plt.1legend() 

plt. show() 








得 到 对 应 的 折线 图 如 图 10-10 所 示 。 

















通过 折线 图 可 以 观察 到 ， 准 确 率 的 峰值 出 现在 近 -500 处 ， 调 整 T 的 变化 范围 ， 从 -600 到 -400， 每 次 变化 为 10， 得 到 折线 图 如 图 10-11 所 示 。 

















如 果 仅 关注 准确 率 ，T 取 值 -580 左 右 即 可 。 

















使 用 同样 的 方法 ， 设 置 T 从 -1000 到 0 依次 变 大 ， 每 次 增加 100: 





for T in range(-1000,0,100) : 





记录 下 每 次 T 值 以 及 对 应 的 召回 率 : 





y_predict = np.array (ly_predict) 
recall =recall scorely test,y predict) 
a.append (T) 

b.append (recall) 





metrics.precision 
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图 10-10 了 与 准确 率 对 应 折线 图 〈 步 长 为 100) 
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10-11 与 准确 率 对 应 折线 图 ( 步 长 为 10) 














使 用 matplotlib 绘 图 ， 画 出 折线 图 ， 横 坐标 为 T 值 ， 纵 坐标 为 对 应 的 召回 率 : 





























plt.plot(a, b, 'r') 

plt.xlabel ("lo0og probability") 

Plt.ylabel ("metrics. recall ") 

plt.title ("metrics.precisiongmetrics.recalls") 
plt.legend() 

plt.show() 





得 到 对 应 的 折线 图 如 图 10-12 所 示 。 











通过 折线 


metrics.recall 
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0.6 


metrics.recall 
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0.0 
-1000 -900 -800 -700 -600 -500 -400 -300 -200 -100 
log probability 


图 10-12 了 与 召回 率 对 应 折线 图 〈( 步 长 为 100) 





图 











可 以 观察 到 ， 准 确 率 的 峰值 出 现在 近 -450 处 ， 调 整 T 的 变化 范围 ， 从 -500 到 -400， 每 次 变化 为 10， 得 到 折线 图 如 图 10-13 所 示 。 








1.00 metrics.recall 
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10-13 了 与 召回 率 对 应 折线 图 〈 步 长 为 10) 








如 果 仅 关注 召回 率 ，T 取 值 -450 左 右 即 可 。 





综合 考虑 准确 率 与 召回 率 ，T 取 值 在 -600 到 -400， 每 次 T 变 化 10， 得 到 折线 图 如 图 10-14 所 示 ， 其 中 实 线 表示 准确 率 ， 虚 线 表示 召回 率 。 

















metrics.recall&é&precision 
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10-14 T 与 准确 率 和 召回 率 的 关系 


























T 设 置 为 -500， 使 用 二 阶 隐 式 马尔 可 夫 算 法 的 情况 下 ， 特 征 提取 使 用 词汇 表 模 型 ， 整 个 系统 准确 度 为 95%， 召 回 率 为 95%，TP、FP、TN、FN 答 阵 见 表 10-4。 








表 10-4 ”基于 词汇 表 模 型 的 隐 式 马尔 可 夫 算 法 验证 结果 


类 型 名 称 


检索 到 1 
未 检索 到 9 





完整 输出 结果 为 : 





hmm and wordseq 
max features=100 


Precision recall fl-score support 
0 0.96 0.99 0.97 87 
汪 0.90 0.69 0.78 13 
avg / total 95 0.95 C95 100 
[[86 1] 
[#91 





























这 个 结果 和 其 他 监督 学 习 比 起 来 其 实 并 没有 进步 ， 但 是 它 仅 使 用 了 前 50 组 操作 序列 学 习 ， 并 且 在 不 需要 人 工 指 定 黑 样本 便 可 以 发 现 部 分 恶意 操作 ， 这 在 实际 环境 下 非常 有 意义 。 





10.3.4 ”深度 学 习 算 法 之 MLP 























使 用 MLP 算 法 ， 特 征 提取 使 用 词 袋 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 














10-15 所 示 。 


[ 





系统 信 令 


样本 


提取 词 袋 


性 本 划分 









训练 集 测试 集 


MLP 算 法 训练 


效 朱 验证 


2) 提取 词 袋 。 
3) TF-IDF 处 理 。 


4) 手工 划分 训练 集 和 测试 集 。 








5) 使 用 MLP 算 法 在 训练 模型 上 训练 。 

















6) 使 用 MLP 算 法 在 测试 集 上 进行 预测 。 








7) 验证 MLP 算 法 预测 效果 。 




















使 用 MLP 算 法 ， 隐 藏 层 设计 为 2 层 ， 节 点 数 分 别 为 5 和 2， 特 征 提取 使 用 词 袋 和 TF-IDF 模 型 : 























clf = MLPClassifier (solver="'lbfgs', 
alpha=le-5, 
hidden layer sizes = (5, 2), 
random state = 1) 

clf.fit(x train, y train) 

Y_pred = clf.predict (x test) 


评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 


print (classification report(y test, y pred)) 
print metrics.confusion matrix(y test, y pred) 











在 词 袋 最 大 特征 数 为 100 的 情况 下 ， 使 用 词 袋 和 TF-1IDF 模 型 时 ， 整 个 系统 准确 度 为 99%， 召 回 率 为 999，TP、FP、TN、FN 和 矩 阵 见 表 10-5。 








表 10-5 基于 词 袋 和 TF-IDF 模 型 的 MLP 算 法 验证 结果 


类 型 名 称 


念 索 到 0 
未 检索 到 5 





完整 输出 结果 为 : 


mlp and wordbag 
max features=100 


precision recall fl-score support 
0 0.98 ID 0.99 64 
1 1.00 0.83 0.91 6 
avg / total 0.99 必 99 0.99 70 
[[64 0] 
[1 5]] 

















网 











10-16 所 示 。 











使 用 MLP 算 法 ， 特 征 提取 使 用 词 袋 和 N-Gram， 完 整 的 处 理 流程 如 











系统 命令 样本 





提取 词 袋 


样本 划分 


N-Gram 处 理 






训练 集 


Mt 
四 


MLP 算 法 训练 


图 10-16 ”特征 提取 使 用 词 袋 和 N-Gram 模 型 的 MLP 算 法 处 理 流 
1) 读 取 SEA 数 据 集 数 据 。 
2) 提取 词 袋 。 
3) N-Gram 处 理 。 


4) 手工 划分 训练 集 和 测试 集 。 











5) 使 用 MLP 算 法 在 训练 模型 上 训练 。 














6) 使 用 MLP 算 法 在 测试 集 上 进行 预测 。 








7) 验证 MLP 算 法 预测 效果 。 


在 词 袋 最 大 特征 数 为 100 的 情况 下 ， 使 用 词 袋 科 N-Gram 模 型 时 ， 整 个 系统 准确 度 为 99%， 召 回 率 为 99%，TP、FP、TN、FN 珑 阵 见 表 10-6。 





表 10-6 ”基于 词 袋 和 TN-Gram 模 型 的 MLP 算 法 验证 结果 








类 型 名 称 不 相 关 
检索 到 0 
未 检索 到 5 
完整 输出 结果 为 : 
mlp and ngram 
max_features=100 
Precision recall fl-score support 
0 0.98 1.00 agg 64 
1.00 0.83 Cag 6 
avg / total 0.99 0.99 0.99 70 
[[64 0] 
[1 9] 





10.4 ”本 章 小 结 


本 章 基于 SEA 数 据 集 介 绍 UBA 的 一 个 典型 应 用 场景 一 一 恶意 操作 行为 检测 。 特 征 的 提取 方法 包括 词 袋 和 TF-IDF 模 型 、 词 袋 和 N-Gram 模 型 以 及 词汇 表 模型 ， 模 型 介绍 了 朴素 贝 叶 斯 算法 、XGBoost 算 
法 、 隐 式 马 尔 可 夫 算 法 和 MLP 算 法 ， 其 中 词 袋 和 N-Gram 模 型 结合 XGBoost 效 果 最 好 ， 准 确 度 和 召回 率 都 达到 了 100%。 值 得 一 提 的 是 ， 隐 式 马 尔 可 夫 算 法 的 检测 结果 和 其 他 有 监督 学 习 比 起 来 其 实 并 没有 进 
步 ， 但 是 它 仅 使 用 了 前 50 组 操作 序列 学 习 ， 并 且 在 不 需要 人 工 指定 黑 样 本 情形 下 便 可 以 发 现 部 分 恶意 操作 ， 这 个 在 实际 环境 下 非常 有 意义 。 

















第 11 章 WebShell 检 测 


WebShell 就 是 以 ASP、PHP、JSP 或 者 CGI 等 网 页 文件 形式 存在 的 一 种 命令 执行 环境 ， 也 可 以 将 其 称 为 一 种 网 页 后 门 。 黑 客 在 入 侵 了 一 个 网 站 后 ， 通 常会 将 ASP 或 PHP 后 门 文件 与 网 站 服务 器 Web 目 录 
下 正常 的 网 页 文件 混在 一 起 ， 然 后 就 可 以 使 用 浏览 器 来 访问 ASP 或 者 PHP 后 门 ， 得 到 一 个 命令 执行 环境 ， 以 达到 控制 网 站 服务 器 的 目的 。 顾 名 思 义 ，“Web” 的 合 义 是 需要 服务 器 提供 Web 服 
务 ，“Shell” 的 含义 是 取得 对 服务 器 某 种 程度 的 操作 权限 。WebShell 常 常 被 入 侵 者 利用 ， 通 过 网 站 服务 端口 对 网 站 服务 器 获取 某 种 程度 的 操作 权限 。 





在 攻击 链 模型 [] 中 ， 整 个 攻击 过 程 分 为 以 下 几 个 步骤 ( 见 图 11-1) : 
1) Reconnaissance (踩点 ) 

2) Weaponization (组 装 ) 

3) Delivery ( 投 送 ) 

4) Exploitation (攻击 ) 

5) Installation ( 植 入 ) 

6) C2 (控制 ) 


7) Actions (行动 ) 
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图 11-1 攻击 链 模型 
在 针对 网 站 的 攻击 中 ， 通 常 是 利用 上 传 漏洞 ， 上 传 WebShell， 然 后 通过 WebShell 进 一 步 控制 Web 服 务 器 ， 对 应 攻击 链 模型 的 Install 和 C2 环节 [ 匀 。 


常见 的 WebShell 检 测 方 法 主要 有 以 下 几 种 : 





: 静态 检测 ， 通 过 匹配 特征 码 、 特 征 值 、 危 险 操作 函数 来 查找 WebShell 的 方法 。 只 能 查找 已 知 的 WebShell， 并 且 误 报 率 、 漏 报 率 会 比较 高 ， 但 是 如 果 规 则 完善 ， 可 以 减低 误 报 率 ， 但 是 漏 报 率 必定 会 有 所 
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“ 动态 检测 ， 检 测 执 行 时 刻 表现 出 来 的 特征 ， 比 如 数据 库 操 作 、 敏 感 文件 读 取 等 。 
“ 语法 检测 ， 根 据 PHP 语 言 扫 描 编译 的 实现 方式 ， 进 行 剥 离 代码 和 注释 ， 通 过 分 析 变量 、 函 数 、 字 符 串 、 语 言 结 构 的 方式 ， 来 实现 关键 危险 函数 的 捕捉 。 这 样 可 以 完美 解决 漏 报 的 情况 。 但 误 报 上 ， 仍 


存在 问题 是 。 


“ 统计 学 检测 ， 通 过 信息 焙 、 最 长 单词 、 重 合 指 数 、 压 缩 比 等 进行 检测 趾 。 








本 章 主要 以 常见 的 WebShell 数 据 集 为 例 介绍 WebShell 的 检测 技术 ， 介 绍 WebShell 检 测 使 用 的 数据 集 以 及 对 应 的 特征 提取 方法 ， 介 绍 使 用 的 算法 以 及 对 应 的 验证 结果 ， 包 括 朴 素 贝 叶 斯 算法 和 深度 学 习 
算法 之 MLP、CNN。 





本 章 演示 代码 请 参考 本 书 GitHub 上 的 WebShell.py 文 件 。 


[1] http://www.darkreading.com/attacks-breaches/leveraging-the-kill-chain-for-awesome/a/d-id/1317810 
[2] http://www.freebuf.com/news/80820.html 
[3] http://www.cnxct.com/pecker-scanner-beta-release-support-cloud-confirmation/ 
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[4] http://blog.csdn.net/u011066706/article/details/51175971 


11.1 数据 集 











数据 集 包 含 Webshell 样 本 2616 个 ， 开 源 软件 PHP 文 件 9035 个 。Webshell 数 据 来 自 互 联网 上 常见 的 Webshell 样 本 ， 数 据 来 自 GitHub 上 相关 项 目 ( 见 图 11-2) ， 为 了 演示 方便 ， 全 部 使 用 了 基于 PHP 的 
Webshell 样 本 。 






































白 样 本 主要 使 用 常见 的 基于 PHP 开 发 的 开源 软件 ， 主 要 包括 以 下 几 种 。 


























11.1.1 WordPress 











WordPress 是 一 种 使 用 PHP 语 言 开发 的 博客 平台 ， 
所 示 。 




















户 可 以 在 支持 PHP 和 MySQL 数 据 库 的 服务 器 上 架设 属于 自己 的 网 站 ， 也 可 以 把 WordPress 当 作 一 个 内 容 管理 系统 来 使 用 WordPress 主 页 如 图 11-3 
































WordPress 有 许多 第 三 方 开 发 的 免费 模板 ， 安 装 方式 ， 简 单 易 用 。 不 过 要 制作 一 个 自己 的 模板 ， 则 需要 具有 一 定 的 专业 知识 ， 比 如 至 少 要 懂得 标准 通用 标记 语言 下 的 一 个 应 用 HTML 代 码 、CSS、PHP 
等 相关 知识 。WordpPress 官 方 支持 中 文 版 ， 同 时 有 爱好 者 开发 的 第 三 方 中 文 语言 包 ， 如 Wopus 中 文 语言 包 。Wordpress 拥 有 成 二 上 万 的 各 式 插件 和 不 计 其 数 的 主题 模板 样式 [1]。 























© | @ GitHub, Inc. [US] https://github.com/search?l=PHP&q=webshell&type=Repositories&utf8=vV 





Pullrequests lIssues Marketplace Gist 


Repositories ‘110 Code 2K Commits 26K lssues 73 Wikis ‘78 Users 1 Advanced search 


110 repository results ON 


PHP 


tennc/webshell JavaScript 
This is a webshell open source project 


Updated 10 days ago 


ysrc/webshell-sample 


webshell sample 
webshell 


Updated a day ago 


tdifg/WebShell 
WebShell Collect 


Updated on Sep 14 2016 











11-2 ” GitHub 上 WebShell 相 关 项 目 








项 目地 址 为 : https://wordpress.org/ 
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Showcase Themes Plugins Moblle Support Getinvolved About Blog Hosting Download WordPress 
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WordPress is open source software you can use to create a 
beautiful website, blog, or app. 


WordPress is also available in 中 文 (简体 ). 


图 11-3 WordPress 主页 





[1] http://www.baike.com/ gwiki/wordpress 





























PHPCMS 是 一 款 网 站 管理 软件 。 该 软件 采用 模块 化 开发 ， 支 持 多 种 分 类 方式 ， 使 用 它 可 方便 地 实现 个 性 化 网 站 的 设计 、 开 发 与 维护 。 它 支持 众多 的 程序 组 合 ， 可 轻松 实现 网 站 平台 迁移 ， 并 可 广泛 满足 
各 种 规模 的 网 站 需求 ， 可 靠 性 高 ， 是 一 款 具 备 文章 、 下 载 、 图 片 、 分 类 信息 、 影 视 、 商 城 、 采 集 、 财 务 等 众多 功能 的 强大 、 易 用 、 可 扩展 的 优秀 网 站 管理 软件 。PHPCMS 主 页 如 图 11-4 所 示 。 



























































PHPCMS 由 国内 80 后 知名 创业 者 钟 胜 辉 (网 名 : 淡淡 风 ) 于 2005 年 创办 ， 是 国内 知名 的 站 长 建站 工具 。 





项 目地 址 为 : httl 
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PHPCMS V9 内 容 管理 系统 


PHPCMS 。 WE V9 采 用 OOP (面向 对 象 ) 方式 自主 开发 的 框架 。 框 架 易 扩展 ， 
稳定 是 具有 超 强大 负载 能 力 ， 完 全 可 以 满足 政府 机 构 、 教 育 机 


业 芋 门 于 4 冯 1 = = 一 构 、 事 业 单位 、 商 业 企业 、 个 人 站 长 使 用 。[ 查 看 详情 ] 


产品 库 、 企 业 库 、 商 机 
更 多 自 定义 功能 ， 行 业 建 站 一 把 手 





图 11-4 PHPCMS 主 页 



































phpMyAdmin 是 一 个 基于 PHP 开 发 的 MySQl 数 据 库 管理 端 ， 通 过 phpMyAdmin 提 供 的 图 形 化 的 Web 界 面 ， 可 以 完成 绝 大 多 数 针对 MySQL 数 据 库 的 日 常 运 维 ， 包 括 但 不 限于 针对 数据 库 、 表 以 及 数据 
库 用 户 的 增 、 删 、 查 、 改 。 相 对 于 其 他 图 形 化 管理 MySQL 的 方案 ，phpMyAdmin 仅 需要 通过 浏览 器 访问 ， 不 用 预先 安装 特定 的 客户 端 管理 软件 ， 因 此 非常 方便 。phpMyAdmin 主 页 如 图 11-5 所 示 。 


























项 目地 址 为 : https://www.phpMyAdmin.net/ 
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Bringing MySQL to the web 


phpMyAdAin 
About Sponsors 


phpMyAdmin is a free software tool written in PHP, intended to handle the administration of MySQL over 
the Web. phpMyAdmin supports a wide range of operations on MySQL and MariaDB. Frequently used 
operations (managing databases, tables, columns, relations, indexes, users, permissions, etc) can be 
performed via the user interface, while you still have the ability to directly execute any SQL statement. 


Diamond sponsor 


phpMyAdmin comes with a wide range of documentation and users are 
welcome to update our wiki pages to share ideas and howtos for various 
operations. The phpMyAdmin team will try to help you if you face any problem; 
you can use a variety of support channels to get help. 


phpMyAdmin is also very deeply documented in a book written by one of the Navicat 
developers -~ Mastering phpMyAdmin for Effective MySQL Management, which 和 ‘0MySQE 


is available in English and Spanish. 

Intelligent MySQL GUI 
To ease Usageto a wide range of people, phpMyAdmin is being translated into Full-featured Database Manage 
72 languages and supports both LTR and RTL languages. 


phpMyAdmin is a eighteen-year-old project with a stable and flexible code base; you can find out more 
about the project and its history and the awards it earned. When the project turned 15, we published a Gold sponsors 
celebration page. 
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11.1.4 Smarty 


Smarty 是 一 个 使 用 PHP 写 出 来 的 模板 引擎 ， 是 目前 业界 最 著名 的 PHP 模 板 引 擎 之 一 。 它 分 离 了 逻辑 代码 和 外 在 的 内 容 ， 提 供 了 一 种 易于 管理 和 使 用 的 方法 ， 将 原本 与 HTML 代 码 混杂 在 一 起 PHP 代 码 逮 
辑 分 离 。 简 单 来 计 ， 目 的 就 是 要 使 PHP 程 序 员 同 前 端 人 员 分 离 ， 使 程序 员 改 变 程序 的 逻辑 内 容 不 会 影响 前 端 人 员 的 页 面 设计 ， 前 端 人 员 重 新 修改 页 面 不 会 影响 程序 的 程序 逻辑 。 这 一 功能 在 多 人 合作 的 项 目 
中 尤为 重要 。 








项 目地 址 为 : https://github.com/smarty-php/smarty 


Dl:s: “Yii 











Yi 是 一 个 基于 组 件 的 高 性 能 PHP 框 架 ， 用 于 开发 大 型 Web 应 用 。Yii 宁 用 严格 的 0OP 编 写 ， 并 有 着 完善 的 库 引 用 以 及 全 面 的 教程 。Yii 提 供 了 Web2.0 应 用 开发 所 需要 的 几乎 一 切 功能 ,事实 上 ，Yii 是 最 有 
效率 的 PHP 框 架 之 一 中 。 




















Yii 是 一 个 高 性 能 的 PHP5 的 Web 应 用 程序 开发 框架 。 通 过 一 个 简单 的 命令 行 工具 yiic 可 以 快速 创建 一 个 Web 应 用 程序 的 代码 框架 ， 开 发 者 可 以 在 生成 的 代码 框架 基础 上 添加 业务 逻辑 ， 以 快速 完成 应 用 程 
序 的 开发 。Yii 主 页 如 图 11-6 所 示 。 


项 目地 址 为 : http://www.yiiframework.com/ 


C |© wayirameworkcom 疤 | 
github . twitter . facebook guide 2.0 - api 2.0 - guide 1.1 . api 1.1 - wiki - extensions .forum . live chat - login 


- yliframework about downiloads TT ， development community 


The Fast, Secure and Professional Three steps to build your application rapidly: 
PHP Framework 1. You create the database; 


Yiiis a high-performance PHP framework best for developing hg ,li ee A 
Web 2.0 applications. .YOU CUS e your exa s. 


Yii comes with rich features: MVC, DAO/ActiveRecord, 118N/L10N, Ee Ee 


caching, authentication and role-based access control, scaffolding, Or dive directly into Yii with 2.0.11 released on Feb 1, 2017 


testing, etc. It can reduce your development time significantly. screencasts or guide 1.1.18 released on Apr 19, 
2017 


@ Fast VY Secure Professional 


Yii only loads the features that you need. lt has Security comes as standard with Yii. lt includes Yii helps you develop clean and reusable code. It 
powerful caching support. It is explicitly designed to input validation, output filtering, SQL injection and follows the MVC pattern, ensuring a clear 
work efficiently with AJAX. Cross-site scripting prevention. separation of logic and presentation. 





图 11-6 Yii 主 页 


[1] http://www.cnblogs.com/tianming/archive/2010/07/18/1778923.html 


11.2 ”特征 提取 


11.2.1 词 袋 和 TF-IDF 模 型 


我 们 使 用 最 常见 的 词 袋 和 TF-1DF 模 型 提取 文本 特征 。 


把 一 个 PHP 文 件 作 为 一 个 完整 的 字符 串 处 理 ， 定 义 函 数 load_one _file 加 载 文件 到 一 个 字符 串 变 量 中 返回 ,文件 中 的 回 车 换行 需要 过 滤 掉 : 





def load one file (filename): 
with open (filename) as f: 
for line in f: 
line = line.strip('\r' 
line = line.strip('\n') 
x+=1ine 
return x 





由 于 开源 软件 中 包含 大 量 图 片 、Javascript 等 文件 ， 所 以 遍历 目录 时 需要 排除 非 PHP 文 件 。 另 外 开源 软件 的 目录 结构 相对 复杂 ， 不 像 前 面 章节 的 垃圾 邮件 、 骚 扰 短信 等 是 平面 目录 结构 ， 所 以 需要 递归 
访问 指定 目录 并 加 载 指定 文件 类 型 : 








def load files_re (dir) : 

files list = [] 

g = os.walk(dir) 

for path, d, filelist in g: 

for filename in filelist: 
if filename.endswith(' .php'): 

fulepath = os.path.join(path, filename) 
Print "Load %s" % fulepath 
t = load file(fulepath) 
files list.append(t) 

return files list 





加 载 搜 集 到 的 WebShell 样 本 ， 并 统计 样本 个 数 ， 将 WebShell 样 本 标记 为 1: 





WebShell files list = load files re (WebShell dir) 
yl=[1]*len (WebShell files list) 
black count=len (WebShell files list) 





加 载 搜集 到 的 开源 软件 样本 ， 并 统计 样本 个 数 ， 将 开源 软件 样本 标记 为 0: 





wp files list =load files_re (whitefile dir) 
y2=[0]*len (wp files list) 
white count=len (wp _ files list) 





将 WebShell 样 本 和 开源 软件 样本 合并 : 





x=WebShell files list+wp files list 
y=y1+y2 




















使 用 2-Gram 提 取 词 袋 模型 ， 并 使 用 TF-IDF 进 行 处 理 : 

















CV = CountVectorizer (ngram range=(2, 2), decode error="ignore",max features= max features, 
~ token pattern = r™\b\wt\b',min df=1, max df=1.0) 

x=CV.fit transform (X) .toarray () 

transformer = TfidfTransformer (smooth idf=False) 

x tfidf = transformer.fit transform(x) 

x = x tfidf.toarray() . 





所 谓 的 2-Gram 是 词 袋 模型 的 一 个 细 分 类 别 ( 见 图 11-7) ， 也 有 的 机 器 学 习 书 籍 里 面 单 独 把 2-Gram 或 者 阅 N-Gram 作 为 单独 的 模型 介绍 。N-Gram 基 于 这 样 一 种 假设 ， 第 n 个 单词 只 和 它 前 面 的 n-1 个 词 
有 关联 ， 每 n 个 单词 作为 一 个 处 理 单元 。 
















1 like hanmeimei, hanmelmel like me 






like hanmelmel hanmelmel 
hanmeimei hanmelmel like 





like me 











图 11-7 2-Gram 举 例 














通过 设置 CountVectorizer 函 数 的 ngram_range 参 数 和 token_pattern 即 可 实现 N-Gram， 其 中 ngram_range 表 明 N-Gram 的 n 取 值 范围 ， 如 果 是 2-Gram 设 置 成 (2，2) 即 可 。token_pattern 表 明 词 
切 分 的 规则 ， 通 常设 置 为 r\b\w+\b ' 即 可 。 











划分 训练 集 与 测试 集 ， 测 试 集 的 比例 为 40%: 





x train, x test, y train, y test = train test split(x, y, test size=0.4, random state=0) 





11.2 ”特征 提取 


11.2.1 词 绕 和 TF-IDF 模 型 











我 们 使 用 最 常见 的 词 袋 和 TF-1DF 模 型 提取 文本 特征 。 








把 一 个 PHP 文 件 作为 一 个 完整 的 字符 串 处 理 ， 定 义 函 数 load_one file 加 载 文件 到 一 个 字符 串 变量 中 返回 ， 文 件 中 的 回 车 换行 需要 过 滤 掉 : 








def load one file (filename) : 
with open (filename) as f: 
for line in f: 
line = line.strip('\r') 
line = line.strip('\n') 
x+=line 
return % 








由 于 开源 软件 中 包含 大 量 图 片 、JavaScript 等 文件 ， 所 以 遍历 目录 时 需要 排除 非 PHP 文 件 。 另 外 开源 软件 的 目录 结构 相对 复杂 ， 不 像 前 面 章节 的 垃圾 邮件 、 骚 扰 短信 等 是 平面 目录 结构 ， 所 以 需要 递归 
访问 指定 目录 并 加 载 指定 文件 类 型 : 




















def load files re(dir): 

files list = [] 

g = os.walk(dir) 

for path, d, filelist in g: 

for filename in filelist: 
if filename.endswith(' .php'): 

fulepath = os.path.join(path, filename) 
Print "Load %s" % fulepath 
七 = load file (fulepath) 
files_1ist.append (t) 

return files list 





加 载 搜集 到 的 Webshell 样 本 ， 并 统计 样本 个 数 ， 将 Webshell 样 本 标记 为 1: 





WebShell files list = load files re(WebShell dir) 
yl=[1]*len (WebShell files list) 
black count=len (WebShell files list) 





加 载 搜集 到 的 开源 软件 样本 ， 并 统计 样本 个 数 ， 将 开源 软件 样本 标记 为 0: 





wp_files list =load files_re (whitefile dir) 
y2=[0]*len (wp files list) 
white count=len (wp _ files list) 





将 Webshell 样 本 和 开源 软件 样本 合并 : 





x=WebShell files list+wp files list 
y=y1l+y2 


























使 用 2-Gram 提 取 词 袋 模型 ， 并 使 用 TF-1DF 进 行 处 理 : 











V = CountVectorizer (ngram range=(2, 2), decode error="ignore",max features= max featuresy 
~ token pattern = r™\b\wt\b',min df=1, max df=1.0) 

x=CV.fit transform(x) .toarray () 

transformer = TfidfTransformer (smooth idf=False) 

x tfidf = transformer.fit transform(x) 

x = x tfidf.toarray() 








县 面 单独 把 2-Gram 或 者 说 N-Gram 作 为 单独 的 模型 介绍 。N-Gram 基 于 这 样 一 种 假设 ， 第 n 个 单词 只 和 它 前 面 的 n-1 个 词 














所 谓 的 2-Gram 是 词 袋 模型 的 一 个 细 分 类 别 ( 见 图 11-7) ， 也 有 的 机 器 学 习 书 籍 
有 关联 ， 每 n 个 单词 作为 一 个 处 理 单元 。 








ilike hanmeimei, hanmeimei like me 





like hanmeimei hanmelmel 
ee Se 。 like me 
hanmeimei hanmeimei like 












图 11-7 2-Gram 举 例 














通过 设置 CountVectorizer 函 数 的 ngram_range 参 数 和 token_pattern 即 可 实现 N-Gram， 其 中 ngram_range 表 明 N-Gram 的 n 取 值 范 围 ， 如 果 是 2-Gram 设 置 成 (2，2) 即 可 。token_pattern 表 明 词 











切 分 的 规则 ， 通 常设 置 为 r\b\w+\b' 即 可 。 


划分 训练 集 与 测试 集 ， 测 试 集 的 比例 为 40%: 





x train, x test, y train, y test = train test split(x, y, test size=0.4, random state=0) 





11.2.2 opcode 和 N-Gram 模 型 











的 操作 数 ， 可 能 有 的 指令 不 需要 显 式 的 操作 数 。 这 些 操 


























opcode 是 计算 机 指令 中 的 一 部 分 ， 用 于 指定 要 执行 的 操作 ， 指 令 的 格式 和 规范 由 处 理 器 的 指令 规范 指定 。 除 了 指令 本 身 以 外 通常 还 有 指令 所 需 
作 数 可 能 是 寄存 器 中 的 值 、 堆 栈 中 的 值 、 某 块 内 存 的 值 或 者 VO 端 口中 的 值 等 。 通 常 opcode 还 有 另 一 种 称谓 一 字 节 码 (byte codes) 。 例 如 java 虚拟 机 (JVM) 和 .NET 的 通 
属于 前 面 介绍 中 的 后 者 ，PHP 是 构建 在 Zend 虚 拟 机 (Zend VM) 之 上 的 [1]。 


中 间 语 言 (Common 











Intermeditate Language，CIL) 等 。PHP 中 的 opcode 则 














PHP 的 opcode 就 是 Zend 庶 拟 机 中 的 指令 ， 常 见 的 opcode 如 图 11-8 所 示 。 


| © php.net/manual/en/internals2.0pcodes .list.php 


Downloads Documentation | Get Involved Help 


Opcode Descriptions and Examples 


Table of Contents 


ADD 
ADD_ARRAY_ELEMENT 
ADD_CHAR 
ADD_INTERFACE 
ADD_STRING 
ADD_VAR 

ASSIGN 

ASSIGN_ADD 
ASSIGN_BW_AND 
ASSIGN_BW_OR 
ASSIGN_BW_XOR 
ASSIGN_CONCAT 
ASSIGN_DIM 


图 11-8 PHP 常见 opcode 











通常 可 以 通过 PHP 的 VLD (Vulcan Logic Dumper， 人 逻辑 代码 展现 ) 扩展 来 查看 PHP 文 件 对 应 的 opcode。VLD 的 下 载 和 安装 方式 如 下 所 示 ，VLD 作 为 PHP 的 一 个 扩 | 
的 PHP 环 境 : 











展 库 使 用 ， 





编译 和 安装 需要 依赖 本 机 





wget http: 0 A O19.0 to 

tar ZXVE Vv 

cd ./vid- 和 Ge 

/configure --with-php-config=/usr/local/php/bin/php-config --enable-vld 
make && make install 











然后 在 php.in 瑟 置 文件 中 添加 extension=vld.so 用 于 激活 VLD， 其 中 php.ini 默 认 位 于 lib 目 录 中 。VLD 还 可 以 从 GitHub 上 下 载 并 安装 ， 步 骤 为 : 

















git clone https://github.com/derickr/vld.git 
cd vid 

Phpize 

./configure 

make && make install 











VLD 项 目的 主页 如 图 11-9 所 示 ， 网 址 为 : http://pecl.php.net/package/vId 

















om 


Login Packages Support 


| Summary |Provides functionality to dump the internal representation of PHP scripts | 
| Maintainers |Derick Rethans <derick@php.net> (lead) [wishlist [details] | 
一 


The Vulcan Logic Disassembler hooks into the Zend Engine and 
nps all the opcodes (execution units) of a script. 
| Homepage |http://derickrethans.n/vId.php | 


[ Latest Tarball ] [ Changelog ] 
[ Browse Source ] [ Package Bugs ] 


[ Report new bug ] 


| AvailableReleases | 
| Version | State | ReleaseDate | Downloads | | 
| 9:14.0 |beta |2016-12-18 |vid-0.14.0.tgz (20.0kB) 申 DLL 

lbeta |2014-11-14 |wd-0.13.0:tgz (17.1kB) l(changeloo] _ 











11-9 VLD 扩展 下 载 主页 








以 PHP 文 件 hello.php 为 例 : 





<?php 
echo "Hello World"™"; 
$a=1+1; 
echo $a; 

?> 














通过 使 用 PHP 的 VLD 扩 展 查 看 对 应 的 opcode， 其 中 vld.active= 1 表示 激活 VID，vld.execute=0 表 示 只 解析 不 执行 : 











Php -dvld.active=1 -dvld.execute=0 hello.php 





显示 结果 为 : 





function name: (null) 
number of ops: 
compiled vars: !0 = $a 








line #*EIO 

op fetch ext return operands 
2 0 E> ECHO "Hello+Wor1d' 
3 ADD ~0 和 

2 ASSIGN ID; “0 

4 3 ECHO [a 
6 4 > RETURN 1 

branch: # 0; line: A 6€; sop: 0; eop: 4; outl: -2 

path #1: 0, 

对 应 的 opcode 为 : 

ECHO 

ADD 

ASSIGN 

ECHO 








以 一 个 非常 简单 的 PHP 代 码 为 例 ， 该 代码 会 显示 GET 请 求 的 [参数 : 








<?php 

echo $ GET['r']; 
?> 
通过 VLD 查 看 的 结果 为 : 





function name: (null) 
number of ops: 5 
compiled vars: none 
line #*EIO 


op fetch ext return operands 
间 0 E> FETCH R global $0 '_GET' 
1 FETCH_ DIM R $1 #0， 
2 ECHO $1 
4 3 ECHO '+%0A' 
4 > RETURN 1 
branch: # 0; line: = 4; sop: 0; eop: 47 out1: -2 
Path #1: 0, 





对 应 的 opcode 为 : 





FETCH R 
FETCH DIM R 
ECHO ”一 
ECHO 

RETURN 








使 用 2-Gram 对 opcode 进 行 分 组 ， 结 果 为 : 





(FETCH R, FETCH DIM R) 
(FETCH DIM R，ECHO) 
(ECHO, ECHO) 

(ECHO, RETURN) 





完整 的 处 理 流程 如 图 11-10 所 示 。 





<?php 
echo $5 GET['r"']; 


et 





VLD 处 理 获得 
opcode 






| 


FETCH R 
FETCH DIM R 
ECHO 

ECHO 

RETURN 


2-Gram 处 理 


FETCH R, FETCH DIM R) 


ECHO, ECHO) 


( 
(FETCH DIM R, ECHO) 
( 
(ECHO, RETURN) 


图 11-10 PHP 代码 处 理 流程 























代码 实现 方面 ， 首 先 使 用 VLD 处 理 PHP 文 件 ， 把 处 理 的 结果 保存 在 字符 串 中 : 





cmd=php_bin+" -dvld.active=1 -dvld.execute=0 "+file Path 
output=commands .getoutput (cmd) 











PHP 的 opcode 都 是 由 大 写字 母 和 下 划 线 组 成 的 单词 ， 使 用 re.findall 函 数 从 字符 串 中 提取 全 部 满足 条 件 的 opcode， 并 以 空格 连接 成 一 个 新 字符 串 : 


























t=output 
tokens=re.findall (r'\s(\b[A-2 ]+\b)\s',output) 
t=" ".join (tokens) 











遍历 读 取 指定 目录 下 全 部 PHP 文 件 ， 保 存 其 对 应 的 opcode 字 符 串 : 





def load files opcode re(dir): 

files list=[] 

g = os.walk(dir) 

for path, d, filelist in g: 

for filename in filelist: 
if filename.endswith('.php') : 

fulepath = os.path.join(path, filename) 
Print "Load %s opcode" 当 fulepath 
t = load file opcode (fulepath) 
files list.append(t) 

return files list 








依次 读 取 保存 WebShell 样 本 以 及 正常 PHP 文 件 的 目录 ， 加 载 对 应 的 opcode 字 符 串 ， 其 中 标记 WebShell 为 1， 正 常 PHP 文 件 为 0: 











WebShell files list = load files re (WebShell dir) 
yl= [1]*len (WebShell files Tist) 

black count=len (WebShell files list) 

wp - files list =load files ;re (whitefile dir) 

y2= [0]*len( (wP - files list) 

white_count=len (wp _- files _l1ist) 























使 用 2-Gram 处 理 opcode 字 符 串 ， 通 过 设置 ngram_range= (2，2) 就 可 以 使 用 2-Gram。 同 理 ， 如 果 使 用 3-Gram， 则 设置 ngram_range= (3，3) 即 可 : 





























CV = CountVectorizer (ngram : range=(2, 2), decode error=" "ignore" max features= max features, 
token pattern =r Vp\wt\b' ,min ful, max_df=1.0) 
X=CV. fit transform (x) .toarray () 











使 用 TF-IDF 进 一 步 











transformer = TfidfTransformer (smooth idf=False) 
x tfidf = transformer.fit transform(x) 
x = x tfidf.toarray() 











另外 ， 开 发 调试 阶段 会 频繁 解析 相同 的 PHP 文 件 以 获取 对 应 的 opcode， 可 以 使 用 PHP 的 opcode 缓 存 技术 提高 效率 。opcode 缓 存 技术 四 可 以 有 效 减少 不 必要 的 编译 步 又， 减少 CPU 和 内 存 的 消耗 。 正 

















常情 况 下 PHP 代 码 的 执行 过 程 会 经 历 文本 扫描 、 语 法 解析 、 创 建 opcode、 执 行 opcode 这 几 步 ， 如 图 11-11 所 示 。 


object PHP Lifecycle 


请 求 


图 11-11 未 使 用 opcode 缓 存 的 情况 下 PHP 代 码 执行 过 程 











使 用 了 opcode 缓 存 技术 后 ， 对 于 曾经 解析 过 的 PHP 文 件 ，opcode 会 缓存 下 来 ， 遇 到 同样 内 容 的 PHP 文 件 就 可 以 直接 进入 opcode 执 行 阶段 ， 如 图 11-12 所 示 。 


object PHP Lifecycle 











的 Opcode 


语法 解析 创建 Opcode ?| 执行 Opcode 














11-12 ”使 用 opcode 缓 存 的 情况 下 PHP 代 码 执 行 过 程 





开启 opcode 的 缓存 功能 非常 方便 ，PHP5.5.0 以 后 在 编译 PHP 源 码 的 时 候 开启 --enable-opcache， 编 译 选 型 为 : 





./configure --prefix=/opt/php --enable-opcache 
config.status: creating php5.spec 
config.status: creating main/build-defs.h 
config.status: creating scripts/phpize 


Genfig- 
config. 
config. 
config. 
config. 
config. 
config. 
Sonfidg 
config. 


status: 
status: 
status: 
status: 
status: 
status: 
status: 
status: 
status: 


creating scripts/manl/phpize.1 
creating scripts/php-config 
creating scripts/manl/php-config.1 


creating sapi/cli/php.1 


creating sapi/cgi/php-cgi.1 


creating ext/phar/phar.1 


creating ext/phar/phar.phar.1 
creating main/php_config.h 
executing default commands 








make -j4 & make install 





修改 配置 文件 php.ini， 加 载 对 应 的 动态 库 : 





zend extension=/full/path/to/opcache.so 





配置 opcode 缓 存 对 应 的 配置 选项 ， 典 型 的 配置 内 容 如 下 : 





engine = On 


zend extension=/1ib/php/extensions/no-debug-non-zts-20131226/opcache.so 


opcache 
opcache 
opcache 
opcache 
opcache 
opcache 
opcache 


.memory_consumption=128 
.interned strings buffer=8 
.max accelerated Files=4000 
.revalidate freq=60 
.fast_ shutdown=1 
.enable cli=1 
.enable=1 





[1] http://www.nowamagic.net/librarys/veda/ detail/1325 
[2] http://www.cnblogs.com/JohnABC/p/4531029.html 


11.2.3 ”opcode 调 用 序列 模型 


在 opcode 和 N-Gram 模 型 中 ， 我 们 假设 第 n 个 opcode 与 之 第 n-1 个 opcode 有 关联 。 现 在 ， 我 们 从 一 个 更 长 的 时 间 范 


围 








来 看 opcode 的 调 




















序列 ， 把 整个 PHP 的 opcode 当 成 一 个 调 





























便于 程序 处 理 ， 将 PHP 文 件 解析 成 opcode， 获 得 一 个 opcode 序 列 ， 为 了 分 析 方 便 只 截取 固定 长 度 的 opcode 序 列 ， 超 过 固定 长 度 的 截断 ， 不 足 的 用 0 补 齐 。 以 一 个 常见 的 PHP 示 例 : 








序列 来 分 析 。 为 了 





<?php 


?> 


echo $ GET['r']; 





该 文件 通过 VLD 处 理 获得 对 应 的 opcode 为 : 





FETCH R 
FETCH D 
ECHO 
ECHO 
RETURN 


IM R 





获得 对 应 的 opcode 序 列 为 : 





(FETCH R, FETCH DIM R, ECHO, ECHO, RETURN ) 





获取 opcode 调 





用 序列 的 过 程 如 图 





11-13 所 示 。 


<?php 
echo §$ GET["'r']; 


Fe 





VLD 处 理 获得 
opcode 


~ 
~ 





FETCH R 
FETCH DIM R 
ECHO 


ECHO 
RETURN 


(EETCH RR EETCH DIM R，ECHO LCHO, RETURN) 








11-13 ”解析 PHP 文 件 获取 opcode 调 用 序列 的 过 程 








11.3 ”模型 训练 与 验证 


11.3.1 朴素 贝 叶 斯 算法 





使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 科 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 11-14 所 示 。 





PHP 文 件 样本 


随机 划分 






Webshell 样本 









测试 集 





训练 集 





朴 系 贝 叶 斯 


算法 训练 


效 示 验证 


特征 提取 使 用 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 算法 处 理 流 程 














) 将 Webshell 样 本 以 及 常见 PHP 开 源 软件 的 文件 提取 词 袋 。 


2) 使 用 TF-IDF 处 理 。 
划分 为 训练 集 和 测试 集 。 
朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 








3) 随机 














4) 使 











5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 











6) 验证 朴素 贝 叶 斯 算法 预测 效果 。 


实例 化 朴素 贝 叶 斯 算法 ， 并 在 训练 集 上 训练 数据 ， 针 对 测试 集 进行 预测 : 





gnb = GaussianNB () 
gnb.fit (x train,y _ train) 
y_pred=gnb.predict (x_test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 














在 词 袋 最 大 特征 数 为 15000 的 情况 下 ， 使 用 词 袋 和 TF-1DF 模 型 时 ，TP、FP、TN、FN 矩 阵 见 表 11-1。 











表 11-1 基于 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 验证 结果 


不 相 关 
52 


类 型 名 称 
检索 到 


未 检索 到 972 














整个 系统 的 准确 率 为 94.92%， 召 回 率 为 93.19%。 





完整 输出 结果 为 : 





metrics.accuracy_ score: 
0.97361081313 
metrics.confusion matrix: 
[[3566 52] 

[ 71 $972]] 
metrics.precision score: 
0.94921875 
metrics.recall score: 
0.931927133269 
metrics.fl1 score: 
0.940493468795 





11.3 ”模型 训练 与 验证 





11.3.1 朴素 贝 叶 斯 算法 














使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 词 袋 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 11-14 所 示 。 




















PHP 文 件 样本 


随机 划分 






Webshell 样本 









测试 集 





训练 集 





朴 系 贝 叶 斯 


算法 训练 


效 示 验证 


特征 提取 使 用 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 算法 处 理 流 程 














) 将 Webshell 样 本 以 及 常见 PHP 开 源 软件 的 文件 提取 词 袋 。 


2) 使 用 TF-IDF 处 理 。 
划分 为 训练 集 和 测试 集 。 
朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 








3) 随机 














4) 使 











5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 











6) 验证 朴素 贝 叶 斯 算法 预测 效果 。 


实例 化 朴素 贝 叶 斯 算法 ， 并 在 训练 集 上 训练 数据 ， 针 对 测试 集 进行 预测 : 





gnb = GaussianNB () 
gnb.fit (x train,y _ train) 
y_pred=gnb.predict (x_test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 














在 词 袋 最 大 特征 数 为 15000 的 情况 下 ， 使 用 词 袋 和 TF-1DF 模 型 时 ，TP、FP、TN、FN 矩 阵 见 表 11-1。 











表 11-1 基于 词 袋 和 TF-IDF 模 型 的 朴素 贝 叶 斯 验证 结果 


不 相 关 
52 


类 型 名 称 
检索 到 


未 检索 到 972 








整个 系统 的 准确 率 为 94.92%， 召 回 率 为 93.19%。 











完整 输出 结果 为 : 





metrics.accuracy_ score: 
0.97361081313 
metrics.confusion matrix: 
[[3566 52] 

[ 71 $972]] 
metrics.precision score: 
0.94921875 
metrics.recall score: 
0.931927133269 
metrics.fl1 score: 
0.940493468795 





11.3.2 ”深度 学 习 算 法 之 MLP 














使 用 MLP 算 法 ， 隐 合 层 设计 为 2 层 ( 见 图 11-15) ， 每 次 节点 数 分 别 为 5 和 2。 












































使 用 MLP 算 法 ， 特 征 提取 使 用 词 袋 和 TF-1DF 模 型 ， 完 整 的 处 理 流程 如 图 11-16 所 示 。 











1) 将 Webshell 样 本 以 及 常见 PHP 开 源 软件 的 文件 提取 词 袋 。 








2) 使 用 TF-IDF 处 理 。 





3) 随机 划分 为 训练 集 和 测试 集 。 














4) 使 用 MLP 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





Oo 


验证 MLP 算 法 预测 效果 。 








WebShell 样 本 PHP 文 件 样本 





提取 词 袋 


TF-IDF 处 理 







随机 划分 





训练 集 


MLP 
算法 训练 


实例 化 MLP 算 法 ， 并 在 训练 集 上 训练 数据 ， 针 对 测试 集 进行 预测 : 





效 末 验 证 





图 11-16 ”特征 提取 使 用 词 袋 和 TF-IDF 模 型 的 MLP 算 法 处 理 流程 





clf = MLPClassifier (solver="'lbfgs', 
alpha=le-5, 
hidden layer sizes = (5, 2), 
random state = 1) 

print cilf 

clf.fit (x train, y train) 

Y_Pred = clf.predict (x test) 





评估 结果 的 TP、FP、TN、FN4 个 值 : 





print metrics.confusion matrix(y test, y pred) 





评估 结果 的 准确 率 与 召回 率 以 及 F1 分 值 : 





print “metrics.precision score:" 

print metrics.precision scorel(ly test, y pred) 
print “metrics.recall score:" 

print metrics.recall scorel(ly test, y _pred) 
print “metrics.fl score:" 

print metrics.fl scorel(ly test,y pred) 











在 词 袋 最 大 特征 数 为 15000 且 同时 使 用 TF-IDF 模 型 的 情况 下 ，TP、FP、TN、FN 和 矩阵 见 表 11-2。 














表 11-2 ”基于 词 伐 和 TF-IDF 模 型 的 MLP 验 证 结果 


类 型 名称 
检索 到 
未 检索 到 





准确 率 为 96.59%， 召 回 率 为 95.11%。 


完整 输出 结果 为 : 





不 相 关 
35 
992 





metrics.confusion matrix: 
[[3583 35] 

[ S51 992]] 
metrics.precision score: 
0.965920155794 
metrics.recall score: 
0.951102588686 
metrics.fl score: 
0.95845410628 
































使 用 MLP 算 法 ,特征 提取 使 用 opcode 和 N-Gram 模 型 ， 完 整 的 处 理 流程 如 图 


WebShell 样 本 PHP 文 件 样本 


N-Gram 处 理 


随机 划分 


MLP 
算法 训练 





图 11-17 ”特征 提取 使 用 opcode 和 N-Gram 模 型 的 MLP 算 法 处 理 流程 


1) 将 Webshell 样 本 以 及 常见 PHP 开 源 软件 的 文件 提取 opcode。 








2) 使 用 N-Gram 处 理 。 


3) 随机 划分 为 训练 集 和 测试 集 。 








4) 使 用 MLP 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





6) 验证 MLP 算 法 预测 效果 。 




















特征 提取 使 用 pcode 和 N-Gram 模 型 ，n 取 4， 在 最 大 特征 数 取 2000 的 情况 下 ，TP、FP、TN、FN 矩 阵 见 表 11-3。 


表 11-3 ”基于 opcode 和 N-Gram 模 型 的 MLP 验 证 结果 


不 相 关 
97 


类 型 名 称 
检索 到 


未 检索 到 484 





准确 率 为 83.30%， 召 回 率 为 96.03%。 





完整 输出 结果 为 : 





0.963460337289 
metrics.confusion matrix: 
[[2601 97] 

[ 20 484]] 
metrics.precision score: 
0.833046471601 
metrics.recall score: 
0.960317460317 
metrics.fl1 score: 
0.892165898618 





11.3.3 ”深度 学 习 算法 之 CNN 








特征 提取 使 用 opcode&N-Gram， 算 法 使 用 CNN， 完 整 的 处 理 流程 如 图 11-18 所 示 。 











WebShell 样 本 PHP 文 件 样本 


提取 0o pcode 


N-Gram 处 理 


训练 集 


CNN 算 法 训练 





图 11-18 ”特征 提取 使 用 opcode 和 N-Gram 模 型 的 CNN 算 法 处 理 流程 


1) 将 WebShell 样 本 以 及 常见 PHP 开 源 软件 的 文件 提取 opcode。 








2) 使 用 N-Gram 处 理 。 





3) 随机 划分 为 训练 集 和 测试 集 。 














4) 使 用 CNN 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





6) 验证 CNN 算 法 预测 效果 。 























特征 提取 使 用 opcode 和 N-Gram， 获 得 训练 数据 集 和 测试 数据 集 : 





x, y = get feature by _opcode () 
x train, x test, y train, y test = train test split(x, y, test size = 0.4, random state = 0) 





将 训练 数据 和 测试 数据 进行 填充 和 转换 ， 不 到 最 大 长 度 的 数据 填充 0， 由 于 是 二 分 类 问题 ， 把 标记 数据 二 值 化 。 定 义 输入 参数 的 最 大 长 度 为 文档 的 最 大 长 度 : 





trainx = pad_sequences (trainX, maxlen=max document length, value=0.) 
testX = pad sequences (testX, maxlen=max document length, value=0.) 

# Converting labels to binary vectors 

trainY = to categorical (trainyY, nb classes=2) 

testY = to categorical (testY, nb _ classes=2) 

network = input data(shape=[None,max document length], name="'input') 





定义 CNN 模 型 ， 使 用 3 个 数量 为 128， 长 度 分 别 为 3、4、5 的 一 维 卷 积 函数 处 理 数 据 : 











network = tflearn.embedding (network, input dim=1000000, output dim=128) 

branchl = conv ld(network, 128, 3, padding='valid', activation='relu', regularizer="L2") 
branch2 = conv_ ld (network, 128, 4, padding='valid', activation='relu', regularizer="L2") 
branch3 = conv ld(network, 128, 5, padding='valid', activation='relu', regularizer="L2") 
network = merge([branchl, branch2, branch3], mode='concat', axis=1) 

network = tf.expand dims (network, 2) 

network = global max pool (network) 

network = dropout (network, 0.8) 

network = fully connected (network, 2, activation="'softmax') 

network = regression (network, optimizer='adam', learning rate=0.001, 


loss='categorical crossentropy', name='target') 





实例 化 CNN 对 象 并 进行 训练 数据 ， 一 共 训 





练 5 轮 : 





model = tflearn.DNN (network, tensorboard verbose=0) 
model .fit (trainx, trainYy, 
n_epoch=5, shuffle=True, validation set=0.1, 


show metric=True, batch size=100,run id="webshell") 





完整 的 CNN 结 构 如 图 11-19 所 示 。 





考核 CNN 对 应 的 准确 率 、 召 回 率 、 误 报 数 和 漏 报 数 : 





print "metrics.accuracy_score:" 

Print metrics.accuracy scorel(y test, y pred) 
print “metrics.confusion matrix:™ 

print metrics.confusion matrix(y test, y pred) 
Print “metrics.precision score:" 

print metrics.precision scorel(ly test, y pred) 
print "metrics.recall score:" 

print metrics.recall scorel(ly test, y pred) 
Print "metrics.fl score:" 

print metrics.fl scorel(ly test,y pred) 








图 11-19 ”用 于 识别 WebShell 的 CNN 结 构 


运行 程序 ， 经 过 5 轮训 练 ， 使 用 opcode&N-Gram 模 型 时 ，n 取 4，TP、FP、TN、FN 和 矩阵 见 表 11-4。 


表 11-4 基于 opcode 和 N-Gram 模 型 的 CNN 验 证 结果 


类 型 名 称 
位 索 到 
未 检索 到 





率 为 27.18%。 





回 





整个 系统 的 准确 率 为 82.53%， 召 





完整 输出 结果 为 : 





不 相 关 
29 


137 





metrics .accuracy score: 
0.87632729544 
metrics.confusion matrix: 

[[2669 29] 

[ 367 137]] 
metrics.precision score: 
0.825301204819 
metrics.recall score: 
0.271825396825 
metrics.fl score: 
0.408955223881 



































11-20 所 示 。 








特征 提取 使 用 opcode 序 列 ， 算 法 使 用 CNN， 完 整 的 处 理 流程 如 


WebShell 样 本 PHP 文 件 样本 


提取 opcode 


生成 opcode 订 列 


晴 机 划分 


测试 集 


CNN 算 法 训练 





图 11-20 ”特征 提取 使 用 opcode 调 用 序列 模型 的 CNN 算 法 处 理 流程 


1) 将 Webshell 样 本 以 及 常见 PHP 开 源 软件 的 文件 提取 opcode。 














2) 使 用 词 袋 处 理 ， 针 对 opcode 进 行 编号 ， 生 成 opcode 调 用 序列 。 








3) 随机 划分 为 训练 集 和 测试 集 。 





4) 使 用 CNN 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 























5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








6) 验证 CNN 算 法 预测 效果 。 


特征 提取 使 用 opcode 调 用 序列 编码 后 的 数据 ， 获 得 训练 数据 集 和 测试 数据 集 : 








x train, x test, y train, y test= get feature by opcode () 











运行 程序 ， 经 过 5 轮训 练 ， 在 opcode 序 列 长 度 为 3000 的 情况 下 ， 使 用 opcode 序 列 模型 ，TP、FP、TN、FN 和 矩阵 见 表 11-5。 














表 11-5 ”基于 opcode 调 用 序列 模型 的 CNN 验 证 结果 


类 型 名 称 不 相 关 
检索 到 13 
未 检索 到 415 





整个 系统 的 准确 率 为 96.96%， 召 回 率 为 82.34%。 





完整 输出 结果 为 : 





metrics.accuracy_score: 
0.968144909432 

metrics.confusion matrix: 
[[2685 13] 

[ 89 415]] 
metrics.precision score: 
0.969626168224 
metrics.recall score: 
0.823412698413 
metrics.fl score: 
0.890557939914 





11.4 ”本章 小 结 

















本 章 基于 搜集 的 PHP 的 WebShell 数 据 集 介绍 了 WebShell 的 识别 方法 。 针 对 PHP 的 WebShell 数 据 集 ， 特 征 提取 方法 有 词 袋 和 TF-IDF 模 型 、opcode 和 N-Gram 模 型 以 及 opcode 调 用 序列 模型 3 种 方法 。 
训练 模型 介绍 了 朴素 贝 叶 斯 以 及 深度 学 习 之 MLP 和 和 CNN 算法。 经 过 比较 ， 基 于 词 袋 和 TF-IDF 模 型 的 MLP 算 法 准确 率 和 召回 率 综合 表现 最 佳 ， 基 于 opcode 调 用 序列 模型 的 CNN 算 法 准确 率 较 高 。 








第 12 章 ”智能 扫描 器 





扫描 器 是 安全 领域 非常 重要 的 一 个 工具 ， 大 多 数 安全 公司 都 会 有 自己 的 扫描 器 产品 。 扫 描 器 的 原理 非常 简单 ， 如 图 12-1 所 示 ， 扫 描 器 通过 对 目标 网 站 发 送 攻击 请 求 ， 根 据 应 答 内 容 判 断 是 否 存在 漏洞 ， 
整个 过 程 就 是 模拟 黑客 踩点 和 渗透 的 过 程 。 常 见 的 开源 扫描 器 有 Nikto、Webscarab、Burpsuite 等 。 


模拟 攻击 


分 析 应 答 信 息 


图 12-1 传统 扫描 器 工作 原理 











客户 
Web 应 用 

















安全 工程 师 web 服务 器 

















传统 扫描 器 基于 事先 配置 好 的 规则 模板 ， 发 送 攻击 请 求 ， 然 后 分 析 应 答 内 容 ， 从 而 进一步 判断 是 否 存在 漏洞 。 扫 描 器 的 漏洞 发 现 能 力 取决 于 规则 的 丰富 程度 ， 一 旦 出 现 规则 集合 中 不 覆盖 的 漏洞 ， 就 无 
法 检 出 ， 这 是 传统 安全 产品 的 通病 。 在 实际 的 工作 中 ， 我 们 经 常 发 现 人 工 渗透 可 以 发 现 大 量 扫描 器 无 法 发 现 的 漏洞 ， 排 除 扫描 器 本 来 就 难以 支持 的 业务 逻辑 漏洞 ， 即 使 是 常见 的 XSS 和 SQL 注 入 漏洞 也 会 有 不 
少 遗 漏 []。 对 比 人 工 渗透 和 扫描 器 的 扫描 过 程 ， 主 要 差异 点 在 于 ， 安 全 工程 师 通过 学 习 Web 漏 洞 的 原理 ， 根 据 以 往 的 经 验 ， 结 合 具体 网 站 的 实际 情况 展开 渗透 测试 ， 人 工 渗透 具有 很 强 的 灵活 性 ， 不 像 扫 描 
器 只 会 死板 地 照 套 模板 规 则 。 智 能 扫描 器 就 可 以 学 习 人 工 渗透 过 程 ， 如 图 12-2 所 示 。 
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图 12-2 ”智能 扫描 器 工作 原理 














是 否 可 以 让 机 器 通过 学 习 攻 击 样本 ， 自 动 生成 攻击 载荷 ， 而 不 是 死板 地 照 套 模板 规则 呢 ? 本 章 将 以 常见 的 XSS 攻 击 载荷 数据 集 为 例 介绍 如 何 使 用 深度 学 习 技术 ， 自 动 生成 攻击 载荷 。 


另外 ， 常 见 的 扫描 器 只 能 自动 发 现 不 需要 登录 的 页 面 漏洞 ， 登 录 后 才能 访问 的 页 面 漏洞 无 法 自动 发 现 ， 需 要 安全 工程 师 手工 输入 密码 登录 并 导入 cookie 或 者 指定 登录 页 面 和 输入 参数 ， 这 两 种 方法 都 无 


个 有 


法 实现 自动 化 。 是 否 可 以 让 机 器 自动 识别 登录 页 面 并 自动 识别 参数 进行 登录 呢 ? 本章 将 介绍 如 何 使 用 机 器 学 习 的 方法 ， 让 机 器 自动 识别 登录 页 面 和 登录 所 需要 填写 的 参数 。 














本 章 演示 代码 请 参考 本 书 GitHub 上 的 scanner-poc.py 文 件 。 


[1] https://www.slideshare.net/babaroa/code-blue-2016-method-of-detecting-vulnerability-in-web-apps 


12.1 ”自动 生成 XSS 攻 击 载荷 


12.1.1 数据 集 

















本 节 将 使 用 常见 的 XSS 攻 击 载荷 数据 集 ， 数 据 集 的 获取 方法 是 使 用 常见 的 Web 扫 描 器 对 我 们 的 靶场 进行 扫描 ， 搜 集 扫描 日 志 ， 提 取 XSs 的 攻击 载荷 ， 然 后 去 重 即 可 。 








常见 的 Web 扫 描 器 主要 包括 以 下 几 种 : 
“ Nikto。 这 是 一 个 开源 的 Web 服 务 器 扫描 程序 ， 它 可 以 对 Web 服 务 器 的 多 种 项 目 〈 包 括 3500 个 潜在 的 危险 文件 /CGI， 以 及 超过 900 个 服务 器 版 本 ， 还 有 250 多 个 服务 器 上 的 版 本 特定 问题 ) 进行 全 面 的 测 
试 。 其 扫描 项 目 和 插件 经 常 更 新 并 且 可 以 自动 更 新 。 
“ Paros ptoxy。 这 是 一 个 对 Web 应 用 程序 漏洞 进行 评估 的 代理 程序 ， 即 一 个 基于 Java 的 Web 代 理 程序 ， 可 以 评估 Web 应 用 程序 的 漏洞 。 它 支持 动态 编辑 /查看 HTTP/HTTPS， 从 而 改变 cookies 和 表单 字段 等 
项 目 。 它 包括 一 个 Web 通 信 记 录 程 序 、Web 弃 虫 、Hash 计 算 器 ， 还 有 一 个 可 以 测试 常见 的 Web 应 用 程序 漏洞 的 扫描 器 。 
“ WebInspect。 这 是 一 款 强大 的 Web 应 用 程序 扫 档 程序 。SPI Dynamics 的 这 款 应 用 程序 安全 评估 工具 有 助 于 确认 Web 应 用 中 的 漏洞 。 它 还 可 以 检查 一 个 Web 服 务 器 是 否 正 确 配 置 ， 并 会 尝试 一 些 常见 的 Web 
攻击 ， 如 参数 注入 、 跨 站 脚本 、 目 录 遍 历 攻 击 等 。 
:“ OWASPZAP。Zed 攻 击 代理 〈 简 称 ZAP) ， 这 是 一 款 易 于 使 用 的 ， 帮 助 用 户 从 网 页 应 用 程序 中 寻找 漏洞 的 综合 类 渗透 测试 工具 。 它 同时 还 是 Paro Proxy 项 目的 一 款 分 支 软件 。 该 工具 包含 了 拦截 代理 、 
自动 处 理 、 被 动 处 理 、 暴 力 破解 以 及 端口 扫描 等 功能 ， 除 此 之 外 ， 蜂 蛛 搜 索 功 能 也 被 加 入 了 进去 ， 对 XSS 项 目的 测试 也 是 可 团 可 点 的 。 
“ Burpsuite。 这 是 一 个 可 以 用 于 攻击 Web 应 用 程序 的 集成 平台 。Burpsuite 套 件 允 许 一 个 攻击 者 将 人 工 的 和 自动 的 技术 结合 起 来 ， 以 列举 、 分 析 、 攻 击 Web 应 用 程序 ， 或 利用 这 些 程序 的 漏洞 。 各 种 各 样 的 
Burpsuite 工 具 协 同 工 作 ， 共 享 信息 ， 并 允许 将 一 种 工具 发 现 的 漏洞 作为 形成 另外 一 种 工具 的 基础 。 


“ IBM Security AppScan。AppScan 是 一 款 很 不 错 的 Web 安 全 扫描 工具 ， 对 于 检测 网 站 安全 、 进 行 安全 审计 有 很 大 帮助 。 是 IBM 公 司 一 款 得 意 的 产品 ， 所 获得 的 奖项 与 称号 无 数 ， 极 大 地 推动 了 IBM 公 司 在 
安全 业务 的 拓展 。 越 来 越 多 的 机 构 将 之 应 用 到 实际 开发 过 程 中 ， 并 尝试 将 AppScan Standard 集 成 到 他 们 的 自动 化 构建 中 去 。AppScan Standard V8.6 的 CLI 命 令 行 界 面 提 供 了 丰富 的 命令 及 参数 ， 用 户 可 以 很 方便 
地 从 脚本 或 者 批 处 理 文件 中 控制 AppScan Standard， 轻 松 实现 将 AppScan Standard 集 成 到 自动 构建 中 去 。 

“ Acunetix Web Vulnerability Scannet。 这 是 一 款 商 业 级 的 Web 漏 洞 扫 描 程 序 ， 它 可 以 检查 Web 应 用 程序 中 的 漏洞 ， 如 SQL 注入 、XSS、 身 份 验证 页 上 的 弱 口 令 长 度 等 。 它 拥有 一 个 操作 方便 的 图 形 用 户 界 


面 ， 并 且 能 够 创建 专业 级 的 Web 站 点 安全 审核 报告 由。 




















以 上 几 种 扫描 器 都 可 以 自动 或 者 半自动 地 扫描 XSS 漏 洞 ， 下 面 我 们 再 介绍 常见 的 Web 靶 场 。 所 谓 的 靶场 ， 可 以 理解 为 人 为 搭建 的 具有 各 种 Web 漏 洞 的 网 站 ， 主 要 用 于 测试 Web 扫 描 器 、IDS、WAF 以 及 
进行 攻防 演练 。 这 里 介绍 一 款 叫 做 WAVSEP (Web Application Vulnerability Scanner Evaluation Project) 的 靶场 。WAVSEP 是 一 个 包含 漏洞 的 Web 应 用 程序 ， 目 的 是 帮助 测试 Web 应 用 漏洞 扫描 器 的 





























功能 、 质 量 和 准确 性 。WAVSEP 收 集 了 很 多 独特 的 包含 漏洞 的 Web 页 面 ， 用 于 测试 Web 应 用 程序 扫描 器 的 多 种 特性 加。 
目前 WAVSEP 支 持 的 漏洞 包括 以 下 几 类 。 
* Reflected XSS: 在 66 个 JSP 页 面 实 现 了 66 个 反射 型 XSS 漏 洞 。 
* Error Based SQL Injection : 在 76 个 JSP 页 面 实现 了 80 个 Error Based SQL 注入 漏洞 。 
“ Blind SQL Injection: 在 44 个 JSP 页 面 实现 了 46 个 Blind SQL 注入 漏洞 。 
:Time Based SQL Injection: 在 10 个 JSP 页 面 实现 了 10 个 Time Based SQL 注入 漏洞 。 


WAVSEP 提 供 了 WAR 包 ， 可 以 基于 Tomcat 发 布 成 Web 服 务 ，WAR 包 的 下 载 地 址 为 : 





https://sourceforge.net/projects/wavsep/ 





WAVSEP 的 安装 过 程 稍微 有 点 复杂 。 


安装 MySQL 和 Tomcat 环 境 : 





apt-get install tomcat6 
apt-get install tomcat6-admin 
apt-get install mysql-server-5.5 





如 果 没 有 安装 Java 还 需要 安装 jdk: 





apt-get installopenjdk-7-jdk 





配置 MySQL 密 码 ， 由 于 Tomcat 和 MySQL 在 同 机 ， 默 认 配 置 root@localhost 的 密码 就 可 以 了 。 


配置 Tomcat 管 理 员 账 户 ， 编 辑 tomcat-userxml 文 件 即 可 ， 默 认 路 径 如 下 : 





/etc/tomcat6/tomcat-users.xml 





增加 如 下 内 容 : 





<role rolename="manager-gui"/> 上 
<user username=”tomcat” password=" 密 码 ”roles=”manager-gui”/> 








登录 Tomcat 管 理 后 台 并 上 传 WAR 包 ， 如 图 12-3 所 示 。 


























需要 特别 指出 的 是 ，WAVSEP 默 认 不 会 创建 MySQL 的 数据 库 ， 但 是 安装 脚本 里 默认 指定 了 数据 库 文件 路 径 ， 所 以 需要 创建 DB 目录 ， 并 针对 tomcat6 用 户 授权 : 











mkdir /var/lib/tomcat6/db 
chown -R tomcat6:tomcat6 /var/lib/tomcat6/db/ 








初始 化 WAVSEP， 访 问 初始 化 页 面 ， 填 写 数据 库 连 接 信息 即 可 ， 初 始 化 页 面 见 图 12-4， 链 接 如 下 : 














http://127.0.0.1/wavsep/wavsep-install/install .jsp 





如 果 是 把 靶场 部 署 在 服务 器 上 ， 使 用 服务 器 的 IP 替 换 127.0.0.1 再 访问 就 可 以 了 。 
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Deploy 


图 12-3 ”登录 Tomcat 管 理 后 台 并 上 传 WAR 包 





Pr ~ 

M .9.X database mMust be installed, before proceeding with the WAVSEP installation process. 
The installation should be performed according to the following guidelines: 

A) Install a "clean” databoase instonce. 

B) Install the doataboase for a Developer Machine, ond with Multi-longuage support. 

C) Leave the installation defoult choices intact 

unless the mysql server fs remote, which will require enabling remote root for the installation process to work). 
D) t's best to install the mysql server in the saome host as the wavsep application (only tested locally) 


| 
Rts Username and poassword of the root dotabase user (mysaql): 


port: 3306 

woavsep_usemame (optional - set to defoult if left empty): 

wavsep_password (optional - set to defoult if left empty): 
Subrmt 





图 12-4 ”初始 化 WAVSEP 环 境 


安装 好 靶场 ， 就 可 以 使 用 扫描 器 进行 扫描 了 。 从 Tomcat 的 访问 日 志 中 提取 攻击 载荷 ， 本 书 配套 的 GitHub 中 有 去 重 后 的 XSS 攻 击 载荷 ， 路 径 为 : 





/data/aiscanner/xss.txt 





其 中 上 典型 的 XSS 攻 击 载荷 举例 如 下 : 





$253Cscript%253Ealert ('XSS')%253C%252Fscript%253E 
"</script><script>alert (String.fromCharCode (88, 83, 83) ) </script> 
<IMG SRC=x onload="alert (String.fromCharCode (88, 83,83))"> 

<IMG SRC=x onafterprint="alert (String.fromCharCode (88, 83, 83) ) "> 
<IMG SRC=x onbeforeprint="alert (String.fromCharCode (88, 83, 83) ) "> 
<IMG SRC=x onbeforeunload="alert (String.fromCharCode (88, 83,83))"> 


<IMG SRC=x onerror="alert (String.fromCharCode (88, 83,83) ) "> 
<IMG SRC=x onhashchange="alert (String.fromCharCode (88, 83, 83) ) "> 





完整 的 XSS 载 荷 约 有 1000 个 。 


[1] http://www.91ri.org/5901.html 


[2] http://www.freebuf.com/sectool/125940.html 


12.1 ”自动 生成 XSS 攻 击 载荷 


12.1.1 数据 集 




















本 节 将 使 用 常见 的 XSS 攻 击 载荷 数据 集 ， 数 据 集 的 获取 方法 是 使 用 常见 的 Web 扫 描 器 对 我 们 的 靶场 进行 扫描 ， 搜 集 扫描 日 志 ， 提 取 XSs 的 攻击 载荷 ， 然 后 去 重 即 可 。 























常见 的 Web 扫 描 器 主要 包括 以 下 几 种 : 

: Nikto。 这 是 一 个 开源 的 Web 服 务 器 扫描 程序 ， 它 可 以 对 Web 服 务 器 的 多 种 项 目 〔〈 包 括 3500 个 潜在 的 危险 文件 /CGI， 以 及 超过 900 个 服务 器 版 本 ， 还 有 250 多 个 服务 器 上 的 版 本 特定 问题 ) 进行 全 面 的 测 
试 。 其 扫描 项 目 和 插件 经 常 更 新 并 且 可 以 自动 更 新 。 

“ Paros proxy。 这 是 一 个 对 Web 应 用 程序 漏洞 进行 评估 的 代理 程序 ， 即 一 个 基于 Java 的 Web 代 理 程 序 ， 可 以 评估 Web 应 用 程序 的 漏洞 。 它 支持 动态 编辑 /查看 HTTP/HTTPS， 从 而 改变 cookies 和 表单 字段 等 
项 目 。 它 包括 一 个 Web 通 信 记 录 程 序 、Web 把 虫 、Hash 计 算 器 ， 还 有 一 个 可 以 测试 常见 的 Web 应 用 程序 漏洞 的 扫描 器 。 

“ WeblInspect。 这 是 一 款 强大 的 Web 应 用 程序 扫描 程序 。SPI Dynamics 的 这 款 应 用 程序 安全 评估 工具 有 助 于 确认 Web 应 用 中 的 漏洞 。 它 还 可 以 检查 一 个 Web 服 务 器 是 否 正确 配置 ， 并 会 尝试 一 些 常见 的 Web 
攻击 ， 如 参数 注入 、 跨 站 脚本 、 目 录 遍 历 攻 击 等 。 

"OWASP ZAP。Zed 攻 击 代理 (简称 ZAP) ， 这 是 一 款 易于 使 用 的 ， 帮 助 用 户 从 网 页 应 用 程序 中 寻找 漏洞 的 综合 类 渗透 测试 工具 。 它 同时 还 是 Patro Proxy 项 目的 一 款 分 支 软件 。 该 工具 包含 了 拦截 代理 、 
自动 处 理 、 被 动 处 理 、 暴 力 破解 以 及 端口 扫描 等 功能 ， 除 此 之 外 ， 蜂 蛛 搜 索 功能 也 被 加 入 了 进去 ， 对 XSS 项 目的 测试 也 是 可 团 可 点 的 。 

“ Burpsuite。 这 是 一 个 可 以 用 于 攻击 Web 应 用 程序 的 集成 平台 。Burpsuite 套 件 多 许 一 个 攻击 者 将 人 工 的 和 自动 的 技术 结合 起 来 ， 以 列举 、 分 析 、 攻 击 Web 应 用 程序 ， 或 利用 这 些 程序 的 漏洞 。 各 种 各 样 的 


Burpsuite 工 具 协 同 工 作 ， 共 享 信息 ， 并 允许 将 一 种 工具 发 现 的 漏洞 作为 形成 另外 一 种 工具 的 基础 。 


“ IBM Security AppScan。AppScan 是 一 款 很 不 错 的 Web 安 全 扫描 工具 ， 对 于 检测 网 站 安全 、 进 行 安 全 审计 有 很 大 帮助 。 是 IBM 公 司 一 款 得 意 的 产品 ， 所 获得 的 奖项 与 称号 无 数 ， 极 大 地 推动 了 IBM 公 司 在 
安全 业务 的 拓展 。 越 来 越 多 的 机 构 将 之 应 用 到 实际 开发 过 程 中 ， 并 尝试 将 AppScan Standard 集 成 到 他 们 的 自动 化 构建 中 去 。AppScan Standard V8.6 的 CLI 命 令 行 界面 提供 了 丰富 的 命令 及 参数 ， 用 户 可 以 很 方便 
地 从 脚本 或 者 批 处 理 文件 中 控制 AppScan Standard， 轻 松 实现 将 AppScan Standard 集 成 到 自动 构建 中 去 。 

“ Acunetix Web Vulnerability Scanner。 这 是 一 款 商 业 级 的 Web 漏 洞 扫描 程序 ， 它 可 以 检查 Web 应 用 程序 中 的 漏洞 ， 如 SQL 注入 、XSS、 身 份 验证 页 上 的 弱 口 令 长 度 等 。 它 拥有 一 个 操作 方便 的 图 形 用 户 界 


面 ， 并 且 能 够 创建 专业 级 的 Web 站 点 安全 审核 报告 | 。 



































以 上 几 种 扫描 器 都 可 以 自动 或 者 半自动 地 扫描 XSsS 漏 洞 ， 下 面 我 们 再 介绍 常见 的 Web 靶 场 。 所 谓 的 靶场 ， 可 以 理解 为 人 为 搭建 的 具有 各 种 Web 漏 洞 的 网 站 ， 主 要 用 于 测试 Web 扫 描 器 、IDS、WAF 以 及 
进行 攻防 演练 。 这 里 介绍 一 款 叫 做 WAVSEP (Web Application Vulnerability Scanner Evaluation Project) 的 靶场 。WAVSEP 是 一 个 包含 漏洞 的 Web 应 用 程序 ， 目 的 是 帮助 测试 Web 应 用 漏洞 扫描 器 的 


功能 、 质 量 和 准确 性 。WAVSEP 收 集 了 很 多 独特 的 包含 漏洞 的 Web 页 面 ， 用 于 测试 Web 应 用 程序 扫描 器 的 多 种 特性 四。 





















































目前 WAVSEP 支 持 的 漏洞 包括 以 下 几 类 。 
. Reflected XSS: 在 66 个 JSP 页 面 实现 了 66 个 反射 型 XSS 漏 洞 。 
: Error Based SQL Injection: 在 76 个 JSP 页 面 实现 了 80 个 Error Based SQL 注入 漏洞 。 
“ Blind SQL Injection: 在 44 个 JSP 页 面 实现 了 46 个 Blind SQL 注入 漏洞 。 
. Time Based SQL Injection: 在 10 个 JSP 页 面 实现 了 10 个 Time Based SQL 注入 漏洞。 


WAVSEP 提 供 了 WAR 包 ， 可 以 基于 Tomcat 发 布 成 Web 服 务 ，WAR 包 的 下 载 地 址 为 : 


https://sourceforge.net/projects/wavsep/ 





WAVSEP 的 安装 过 程 稍微 有 点 复杂 。 


安装 MySQL 和 Tomcat 环 境 : 





apt-get install tomcat6 
apt-get install tomcat6-admin 
apt-get install mysql-server-5.5 





如 果 没 有 安装 Java 还 需要 安装 jdk: 





apt-get installopenjdk-7-jdk 


配置 MySQL 密 码 ， 由 于 Tomcat 和 MySQL 在 同 机 ， 默 认 配 置 root@localhost 的 密码 就 可 以 了 。 





配置 Tomcat 管 理 员 账 户 ， 编 辑 tomcat-userxml 文 件 即 可 ， 默 认 路 径 如 下 : 





/etc/tomcat6/tomcat-users .xml 





增加 如 下 内 容 : 





<role rolename="manager-gui"/> 


<user username=”tomcat” password=" 密 码 ”roles=”manager-gui”/> 





登录 Tomcat 管 理 后 台 并 上 传 WAR 包 ， 如 图 12-3 所 示 。 














需要 特别 指出 的 是 ，WAVSEP 默 认 不 会 创建 MySQL 的 数据 库 ， 但 是 安装 脚本 里 默认 指定 了 数据 库 文件 路 径 ， 所 以 需要 创建 DB 目录 ， 并 针对 tomcat6 用 户 授权 : 








mkdir /var/lib/tomcat6/db 
chown -R tomcat6:tomcat6 /var/lib/tomcaté6/db/ 





初始 化 WAVSEP， 访 问 初始 化 页 面 ， 填 写 数据 库 连 接 信息 即 可 ， 初 始 化 页 面 见 图 12-4， 链 接 如 下 : 








http://127.0.0.1/wavsep/wavsep-install/install .jsp 





如 果 是 把 靶场 部 署 在 服务 器 上 ， 使 用 服务 器 的 |P 蔡 换 127.0.0.1 再 访问 就 可 以 了 。 
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图 12-3 ”登录 Tomcat 管 理 后 台 并 上 传 WAR 包 


Pr : 
Moset 3 dotabase must be installed, before Procegeng with the WAVSEP installation process. 
The installation should be performed according to the following guidelines: 

A) Install a "clean”™ databoase instonce. 

B) Instollthe dotobose for a Developer Machine, and with Multi-language support. 

C) Leave the installation defoult choices intact 

unless the mysql server is remote, which will require enabling remote root login for the instollation process to work). 

Dj It's best to instoll the mysql server in the same host as the wavsep application (only tested poo 


| i 
Wetton, Username and poassword of the root database user (mysaql): 


Usernarne: root 

password: 

host: localhost 

port: 3306 

woavsep_usermame [optional - set to defoult if left empty): 

woavsep_password (optional - set to defoult if left empty): 
Subrmt 








图 12-4 ”初始 化 WAVSEP 环 境 











安装 好 靶场 ， 就 可 以 使 用 扫描 器 进行 扫描 了 。 从 Tomcat 的 访问 日 志 中 提取 攻击 载荷 ， 本 书 配套 的 GitHub 中 有 去 重 后 的 XSS 攻 击 载荷 ， 路 径 为 : 





/data/aiscanner/xss.txt 








其 中 典型 的 XSS 攻 击 载荷 举例 如 下 : 





$253Cscript%253Ealert ('XSS')%253C%252Fscript%253E 
"</script><script>alert (String.fromCharCode (88, 83, 83) ) </script> 
<IMG SRC=x onload="alert (String.fromCharCode (88, 83,83))"> 

<IMG SRC=x onafterprint="alert (String.fromCharCode (88, 83, 83) ) "> 
<IMG SRC=x onbeforeprint="alert (String.fromCharCode (88, 83, 83) ) "> 
<IMG SRC=x onbeforeunload="alert (String.fromCharCode (88, 83,83))"> 
<IMG SRC=x onerror="alert (String.fromCharCode (88, 83,83))"> 

<IMG SRC=x onhashchange="alert (String.fromCharCode (88, 83, 83) ) "> 





完整 的 XSS 载 荷 约 有 1000 个 。 


[1] http://www.91ri.org/5901.html 
[2] http://www.freebuf.com/sectool/125940.html 


12.1.2 ”特征 提取 


自动 生成 攻击 载荷 本 质 上 是 RNN 的 序列 生成 问题 ，RNN 序 列 生成 的 相关 知识 请 参考 本 书 的 第 3 章 中 循环 神经 网 络 的 相关 内 容 。RNN 的 序列 生成 通常 使 用 基于 字符 的 特征 提取 ， 即 把 文本 看 做 字符 的 序 
列 。 以 常见 的 XSS 攻 击 载荷 为 例 : 





alert/1/ 





转换 成 字符 序列 ， 得 到 结构 如 下 : 





ar lr’ er rr it Mr 








因为 RNN 最 终 只 能 理解 数字 序列 ， 建 立 字符 对 应 数字 的 转换 表 。 字 符 和 数字 对 应 的 转换 表 举 例如 表 12-1 所 示 。 


表 12-1 字符 与 数字 转换 关系 表 (举例 ) 


符 


改 


最 终 得 到 的 数字 序列 为 : 


Om | 上 | |h 





12345676€ 





完整 过 程 如 图 12-5 所 示 。 





alert/1/ 
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图 12-5 文本 转换 成 数字 序列 





在 TensorFlow 中 使 用 char_idx 结 构 定义 了 这 种 转换 关系 ， 并 且 提 供 了 API， 专 门 

















于 使 











字符 序列 模型 转换 文本 : 





X, Y, char idx = \ 
textfile to semi redundant sequences (path=xss data file, 
seq maxlen=maxlen, 
redun step=3, 
pre defined char idx=char idx) 








其 中 主要 参数 合 义 如 下 : 
“ path 为 文本 文件 对 应 的 路 径 。 


“ seq_maxlen 为 序列 的 最 大 长 度 。 


:pre_defined_char idx 为 可 选 ， 如 果 使 用 指定 的 字符 和 数字 的 转换 关系 ， 需 要 设置 该 参数 ， 如 果 设置 为 None， 将 根据 文本 自动 生成 chat idx 结 构 。 


处 理 结果 如 下 所 示 ， 完 整 的 字符 个 数 为 104269， 字 符 种 类 为 116， 对 应 的 字符 序列 个 数 为 34748: 





Vectorizing texthttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/... 
Text total length: 104,269 加 

Distinct chars » 116 

Total sequences : 34,748 





计算 字符 与 数字 的 转换 关系 比较 花 时 间 ， 在 开发 阶段 有 一 个 小 技巧 ， 即 把 这 个 转换 关系 保留 下 来 : 





Pickle.dump (char idx, open(char idx file, "wb')) 





这 样 ， 下 次 运行 的 时 候 检查 char_idx_file 文 件 是 否 存 在 ， 如 果 存 在 直接 加 载 即 可 : 





if os.path.isfile(char idx file): 
Print('Loading previous xxs char idx') 
char idx = pickle.load(open (char idx file, 'rb')) 





12.1.3 ”模型 训练 与 验证 











使 用 RNN 的 LSTM 算 法 ， 特 征 提取 字符 序列 ， 完 整 的 处 理 流程 如 图 12-6 所 示 。 

















1) 读 取 XSS 攻 击 载荷 数据 集 数 据 。 





2) 转换 成 字符 序列 。 




















3) 使 用 LSTM 算 法 在 数据 集 上 训练 。 





4) 从 数据 集 随机 生成 种 子 。 











w 


LSTM 算 法 使 用 种 子 生成 新 的 XSS 攻 击 载荷 。 











LSTM 的 输入 的 张 量 是 二 维 的 ， 大 小 为 (maxlen，len (char_idx) ) ， 其 中 行为 字符 序列 的 最 大 长 度 ， 列 为 char_ idx 的 长 度 : 





g = tflearn.input data([None，maxlen， len(char idx)]) 





XSS 攻 击 载 谷 
数据 


LSTM 算 法 训练 


LSTM 生 成 XSS 
攻击 载 全 











对 | 


12-6 使 用 LSTM 算 法 生成 XSS 攻 击 载荷 的 流程 








使 用 了 连续 3 个 LSTM 单 元 ， 每 个 单元 的 节点 数 为 512， 为 了 避免 过 拟 合 ， 使 用 dropout: 





tflearn.lstm(g, 512, return seq=True) 
tflearn.dropout (g, 0.5) 
tflearn.lstm(g, 512, return seq=True) 
tflearn.dropout (g, 0.5) 
tflearn.lstm(g, 512) 

tflearn.dropout (g, 0.5) 


Qaaaaa 





使 用 一 个 全 连接 ， 隐 藏 节点 的 个 数 为 char_idx 的 长 度 : 





tflearn.fully connected(g, len(char idx), activation='softmax') 
tflearn.regression(g, optimizer='adam', loss='categorical crossentropy', 
learning rate=0.001) 


a 
[可 | 





完整 的 LSTM 结 构 如 图 12-7 所 示 。 





基于 数据 集 生成 种 子 ， 经 过 训练 ， 就 可 以 生成 XSS 攻 击 载荷 了 : 





seed = random sequence _ from textfile(xss data file, maxlen) 
m.fit (X, Y, validation set=0.1, batch size=128, 
n_epoch=1, run id='scanner-poc') 








基于 种 子 ， 不 断 生成 新 的 序列 ， 即 XSS 的 攻击 载荷 ， 其 中 temperature 可 以 理解 为 新 颖 程度 ，temperature 越 小 ， 生 成 的 序列 就 越 接 近 原 有 序列 ， 反 之 亦 然 : 





Print ("-- TESTINGhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17280/OEBPSVText/...") 
Print ("-- Test with temperature of 1.0 --") 

Print (m.generate (600, temperature=1.0, seq seed=seed)) 

print ("-- Test with temperature of 0.5 --") 


Print (m.generate (600, temperature=0.5, seq_ seed=seed)) 
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图 12-7 利用 LSTM 算 法 生成 XSS 攻 击 载荷 的 结构 图 


实际 环境 下 ， 种 子 往往 可 以 手工 指定 ， 比 如 : 





seed='"/><script>"' 
m.fit (X, Y, validation set=0.1, batch size=128, 
n epoch=2, run id='scanner-poc') 


print ("-- TESTINGhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/...") 


print ("-- Test with temperature of 0.1 -~ 
print (m.generate (32, temperature=0.1, seq_ seed=seed)) 








通过 指定 种 子 ， 可 以 按照 需求 生成 XSS 攻 击 载荷 ，lsao Takaesu 在 他 的 论文 [1] 中 谈 到 类 似 的 方法 ， 使 用 更 大 的 数据 量 进行 了 学 习 ， 得 到 的 结果 如 图 12-8 所 示 。 


Generated syntax by learned LSTM (one example) 


Seed 
<textarea cols="60" > XXX 


<input type="" value= ”XXX 
var hoge = ['log', ‘Xxx 

/* mbsdtest xxx 
function(){ ox 





Generated syntax 


ES 
redlyn 


图 12-8 指定 种 子 生 成 XSS 攻 击 载荷 


[1] Isao Takaesu .Method of Detecting Vulnerability in Web Apps Using Machine Learning[C]. CODE BLUE 2016 


12.2 ”自动 识别 登录 界面 


12.2.1 数据 集 








本 节 的 数据 集 使 用 大 名 上 见 易 的 20News Groups Dataset。20News Groups Dataset 包 含 20000 个 新 闻 报 道 ， 分 别 来 自 20 个 新 闻 组 ， 它 已 经 成 为 机 器 学 习 在 文本 分 类 和 文本 聚 类 领域 非常 流行 的 一 个 数 
据 集 。 








20News Groups Dataset 主 页 为 : 





http://qwone.com/~jason/20Newsgroups/ 











Scikit-Learn 中 默认 包含 了 该 数据 集 ， 可 以 很 方便 地 使 











>>> from sklearn.datasets import fetch 20newsgroups 
>>> newsgroups train = fetch 20newsgroups (subset="'train') 
>>> from pprint import pprint 
>>> pprint (list (newsgroups train.target names)) 
['alt.atheism', 
'comp.graphics', 
'comp.os.ms-windows.misc', 
'comp.sys.ibm.pc.hardware', 
'comp.sys.mac.hardware', 
'comp.windows.x', 
'misc.forsale', 
rec.autos', 
rec.motorcycles', 
rec.sport.baseball', 
rec.sport.hockey', 
'sci.crypt', 
'sci.electronics', 
'sci.med', 
'sci.space', 
'soc.religion.christian', 
'talk.politics.guns', 
'talk.politics.mideast', 
'talk.politics.misc', 
'talk.religion.misc'] 








其 中 ， 可 以 通过 指定 categories 访 问 不 同 领 域 的 新 闻 [1]: 





>>> cats = ['alt.atheism', 'sci.space'] 
>>> newsgroups train = fetch 20newsgroups (subset='train', categories=cats) 





新 闻 内 容 举 例如 下 : 





Steven Collins\t\t\t| email: steve@crl.hitachi.co.jp |\n| Visiting Computer Graphics Researcher\t| phone: (0423)-23-1111 \t |\n| Hitachi Central Research Lab. Tokyo.\t| fax: 





[1] http://scikit-learn.org/stable/datasets/twenty_newsgroups.html 


12.2 ”自动 识别 登录 界面 


12.2.1 数据 集 


本 节 的 数据 集 使 用 大 名 上 见 易 的 20News Groups Dataset。20News Groups Dataset 包 含 20000 个 新 闻 报 道 ， 分 别 来 自 20 个 新 闻 组 ， 它 已 经 成 为 机 器 学 习 在 文本 分 类 和 文本 聚 类 领域 非常 流行 的 一 个 数 
据 集 。 


20News Groups Dataset 主 页 为 : 





http://qwone.com/~jason/20Newsgroups/ 





Scikit-Learn 中 默认 包含 了 该 数据 集 ， 可 以 很 方便 地 使 用 : 





>>> from sklearn.datasets import fetch 20newsgroups 
>>> newsgroups train = fetch 20newsgroups (subset='train') 
>>> from pprint import pprint 
>>> pprint (list (newsgroups train.target names)) 
['alt.atheism', 
'comp.graphics', 
'comp.os.ms-windows.misc', 
'comp.sys.ibm.pc.hardware', 
'comp.sys.mac.hardware', 
'Ccomp.windows.x', 
'misc.forsale', 
rec.autos', 
rec.motorcycles', 
rec.sport.baseball', 
rec.sport.hockey', 
sci.crypt', 
'sci.electronics', 
'sci.med', 
'sci.space', 
'soc.religion.christian', 
'talk.politics.guns', 
'talk.politics.mideast', 
'talk.politics.misc', 
'talk.religion.misc'] 








其 中 ， 可 以 通过 指定 categories 访 问 不 同 领域 的 新 闻 [1]: 





>>> cats = ['alt.atheism', 'sci.space'] 
>>> newsgroups train = fetch 20newsgroups (subset="'train', categories=cats) 





新 闻 内 容 举例 如 下 : 





Steven Collins\t\t\t| email: steve@crl.hitachi.co.jp |\n| Visiting Computer Graphics Researcher\t| phone: (0423)-23-1111 \t |\n| Hitachi Central Research Lab. Tokyo.\t| fax: 





[1] http://scikit-learn.org/stable/datasets/twenty_newsgroups.html 


12.2.2 ”特征 提取 





在 研究 如 何 使 用 机 器 自动 识别 注册 和 登录 界面 之 前 ， 我 们 先 回顾 一 下 人 工 是 如 何 识别 的 。 以 注册 页 面 为 例 ， 常 见 的 注册 页 面 都 会 要 求 填写 用 户 名 、 密 码 、 邮 箱 等 信息 ， 并 且 一 定 会 要 求 你 重新 输入 密码 
进行 确认 。 一 个 典型 的 注册 页 面 如 图 12-9 所 示 ， 会 包含 以 下 关键 字 : 














Sign Up 

Name 

Email 

Password 

Password confirmation 





DD Orowe pds 


© D1%.168220.129/0d 


™ 
© Crcione Trans INC 201) Sy 








Humans : Easily recognize the page type. 


Machine : Difficult. (Log in? Register?) 


CODE BLUE 2016 





图 12-9 人工 识 别 的 典型 注册 页 面 





同样 ， 以 登录 页 面 为 例 ， 常 见 的 登录 页 面 都 会 要 求 填写 用 户 名 /邮箱 和 密码 。 一 个 典型 的 登录 页 面 如 图 12-10 所 示 ， 会 包含 以 下 关键 字 : 








Sign in 
Email 
Password 





Page recognition by humans 


77TAC) GB) RPO WR) 7 7 FRAD ET TD 
站 anal 四 人 ~ 一 Sm 一 一 








得 闪 192.4486.229.29oy “| Oe 








Recognize the keywords that characterize the page. 


CODE BLUE 2016 











12-10 ”人 工 识 别 的 典型 登录 页 面 








我 们 可 以 把 机 器 识别 注册 和 登录 页 面 的 过 程 简化 成 机 器 识别 页 面 中 包含 指定 关键 字 的 过 程 。 如 何不 依赖 人 工 ， 而 是 依靠 机 器 自动 生成 这 些 关键 字 呢 ? 答案 是 Word2Vec。Word2Vec 是 Google 在 2013 年 
开源 的 一 款 将 词 表征 为 实数 值 向 量 的 高 效 工 具 ， 采 用 的 模型 有 连续 的 词 袋 (Continuous Bag-Of-Words，CBOW) 模型 和 Skip-Gram 模 型 两 种 。Word2Vec 通 过 训练 ， 可 以 把 对 文本 内 容 的 处 理 简化 为 K 维 
向 量 空间 中 的 向 量 运算 ， 而 向 量 空间 上 的 相似 度 可 以 用 来 表示 文本 语义 上 的 相似 度 。 可 以 通过 Word2Vec 自 动 挖掘 登录 与 注册 页 面 常见 关键 字 。 关 于 Word2Vec 的 详细 介绍 请 参考 第 7 章 相关 内 容 。 






































Word2Vec 需 要 在 语料库 上 进行 训练 ， 我 们 使 用 20News Groups Dataset。20News Groups Dataset 包 含 大 量 的 非 字 符 符 号 ， 所 以 需要 进行 数据 清洗 ， 仅 提取 单词 : 














newsgroups _ train = fetch 20newsgroups (subset='train') 
sentences=[re.findall ("[a-z\-]+",s.lower()) for s in newsgroups train.datal] 





12.2.3 ”模型 训练 与 验证 


我 们 使 用 20News Groups Dataset 提 取 全 部 单词 ， 然 后 使 用 gensim 进 行 Word2Vec 训 练 ， 完 整流 程 如 图 12-11 所 示 。 





20 News Groups Dataset 


提取 单词 










训练 集 


Word2Vec 
算法 训练 


Word2Vec 生 成 相似 单词 








2) 提取 单词 。 








3) 使 用 Word2Vec 算 法 在 数据 集 上 训练 。 

















4) 使 用 Word2Vec 算 法 生成 相似 单词 。 








将 Word2Vec 实 例 化 ， 其 中 ，size 表 示 Word2Vec 的 向 量 维度 数 ; window 表 示 计算 窗口 ; min_count 表 示 出 现 次 数 大 于 多 少 的 单词 才 参与 Word2Vec 计 算 ; workers 表 示 并 发 计算 的 线程 数 : 














model = gensim.models.Word2Vec (sentences, size= 200, window=5, min count=1, workers=4) 





经 过 Word2Vec 计 算 后 ， 统 计 与 指定 的 单词 相近 的 其 他 单词 : 





for key in keywords: 
print "“[%s] most similar:" % key 


results=model .most similar (positive=[key], topn=10) 


for i in results: 
print i 





most_ similar 函 数 中 ，positive 表 示 关 注 的 关键 字 ; topn 表 示 最 接近 的 前 几 名 的 和 


生成 我 们 关注 的 几 个 关键 字 的 相似 单词 : 


归 词 ， 通 常 选择 前 10 名 。 








get_ login pages(["user", "password", "email", "name"]) 








其 中 ， 与 user 接 近 的 单词 为 : 





[user] most _ similar: 

(u'protocol™, 0.7944560050964355) 
(u'resource', 0.7919875383377075) 
(u'gdatabase', 0.7749378681182861) 
(u'server', 0.7671427130699158) 
(u'users', 0.763939619064331) 
(u'client', 0.7631548047065735) 
(u'editor', 0.7630602717399597) 
(u'implementation', 0.7629498243331909) 
(u'vendor', 0.7577164173126221) 
(u'interface', 0.7553980350494385) 





与 password 接 近 的 单词 为 : 





[password] most similar: 
(u'username', 0.8008607625961304) 
(u'login', 0.72970050573349) 
(u'cleartext', 0.649968683719635) 
(u'ciphertext', 0.6324489116668701) 
(u'nodis', 0.6277448534965515) 
(u'passphrase', 0.6254183053970337) 
(u'provider', 0.6167375445365906) 
(u'modify', 0.6121922731399536) 
(u'macro', 0.6046195030212402) 
(u'location', 0.602789044380188) 





与 email 接 近 的 单词 为 : 





[email] most similar: 
(u'e-mail', 0.9622766971588135) 
(u'mail', 0.8868633508682251) 
(u'replies', 0.811733067035675) 
(u'contact', 0.8095536828041077) 
(u'reply', 0.809396505355835) 
(u'address', 0.7941248416900635) 
(u'send', 0.7776583433151245) 
(u'sase', 0.7239608764648438) 
(u'via', 0.7187370657920837) 
(u'respond', 0.7179733514785767) 





与 name 接 近 的 单词 为 : 





[name] most similar: 

(u'word', 0.5655425190925598) 
(u'title', 0.5320277214050293) 
(u'message', 0.5247227549552917) 
(u'diarrohea', 0.5230312347412109) 
(u'remark', 0.5091713070869446) 
(u'account', 0.4955627918243408) 
(u'statement', 0.4918941557407379) 
(u'book', 0.48860254883766174) 
(u'sermon', 0.4806470274925232) 
(u'poster', 0.4805489182472229) 











lsao Takaesu 在 他 的 论文 [0 中 使 用 类 似 的 方法 ， 得 到 的 结果 如 




















12-12 所 示 。 


Learned similarities in the training 


Target : e-mail Target : name Target : website 


candidate similarity candidate similarity candidate similarity 


email |0.956302 | names |0.962508 | | homepage |0.794415 
mail |0.927386 | username 0.939661 | |blog |0.752945_ 
E-mail |0.900249 site 0.708534 ， 
maming 0.898254 

portal 10.701374 


reply |0.865438 | sumame |0.863966 

contact |0.846801 forum |0.692067_ 

com |0.641086 

chat |0.754903 archive |0.537914 _ 
org 10.531096 


Extracts candidate words of Top 10. 


MBSD CODE BLUE 2016 





图 12-12 使 用 Word2Vec 挖 气 近 义 词 的 结果 
[1] Isao Takaesu .Method of Detecting Vulnerability in Web Apps Using Machine Learning[Cl]. CODE BLUE2016 


12.3” 本章 小 结 


本 章 介绍 了 如 何 通过 机 器 学 习 自 动 生成 攻击 载荷 的 方法 ， 该 方法 通过 使 用 LSTM 算 法 学 习 常 见 的 XSS 攻 击 载荷 ， 掌 握 XSS 的 基本 语法 ， 在 指定 种 子 的 情况 下 ， 自 动 生成 匹配 的 攻击 载荷 。 该 方法 的 优越 性 
在 于 ， 不 用 人 工 实现 Javascript 和 HTML 的 语法 ， 完 全 依赖 于 机 器 自动 学 习 。 在 数据 量 足够 大 的 情况 下 ， 取 得 了 不 错 的 效果 。 本 章 也 介绍 了 如 何 使 用 Word2Vec 自 动 挖掘 注册 页 面 与 登录 页 面 的 关键 字 ， 便 于 
自动 识别 注册 与 登录 页 面 。 

















第 13 章 ”DGA 域 名 识别 





域名 生成 算法 (Domain Generation Algorithm，DGA) 是 一 项 古老 但 一 直 活 跃 的 技术 ， 是 中 心 结构 僵尸 网 络 赖 以 生存 的 关键 武器 ， 该 技术 给 网 络 安全 人 员 造 成 了 不 小 的 麻烦 。 针 对 基于 DGA 的 僵尸 
网 络 (如 图 13-1 所 示 ) ， 研 究 人 员 需 要 快速 掌握 域名 生成 算法 和 输入 ， 对 生成 的 域名 及 时 进行 处 置 。 
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图 13-1 基于 DGA 的 僵尸 网 络 








DGA 依 赖 时 间 、 字 典 和 硬 编码 的 常量 动态 生成 域名 ， 原 理 如 图 13-2 所 示 。 





便 编 码 稼 

















13-2 DGA 原 理 图 














典型 的 DGA 算 法 实现 如 下 [1]: 





def randl(r, seed): 
return (seed - 1043968403*r) & Ox7FFFFFFF 


def dga (date, seed): 
Charset = string.ascii lowercase + string.digits 
tlds = [".net", ".org", ".top"] 
unix = int (time.mktime (date.timetuple())) 
b = 7*24*3600 
4*24*3600 
((unisx//b}*b + ©) 
for i in range(200) : 
domain = "" 
for _ in range(12): 
r= rand(r, seed) 
domain += charset[r % len(charset)] 
r= randl(r, seed) 
tld = tlds[r % 3] 
domain += tld 
print (domain) 


O 
[本 





以 僵尸 网 络 CryptoLocker 的 DGA 算 法 为 例 ， 生 成 的 DGA 与 时 间 关系 如 下 : 








wwkahhnyqvxdfq.com, Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl .txt 
kpudegrfqeuadh.net, Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl .txt 
xraxhxvadmpgdn.biz,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl .txt 
ldjhqijygqrudp.ru, Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl .txt 
yfoctantsymbmt .org, Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.txt 
mxyfqyrashjxdv.co.uk, Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.txt 
aaeatqvufpeedj .info, Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl .txt 
rnpwcfjkeiybhu.com, Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.txt 























本 章 介绍 DGA 域 名 识别 使 用 的 数据 集 以 及 特征 提取 方法 ， 包 括 N-Gram 模 型 、 统 计 特 征 模型 和 字符 序列 模型 ; 还 介绍 使 用 的 算法 以 及 对 应 的 验证 结果 ， 包 括 朴素 贝 叶 斯 算法 、XGBoost 算 法 和 深度 学 习 
算法 。DGA 域 名 识别 还 用 于 DNS 生效 时 间 之 类 的 判断 方法 ， 不 在 本 书 介绍 范围 内 。 























本 章 演示 代码 请 参考 本 书 GitHub 上 的 dga.py 文 件 。 


[1] https://johannesbader.ch/2016/04/the-dga-of-qadars/ 


13.1 数据 集 





Alexa 是 一 家 专门 发 布 网 站 世界 排名 的 网 站 ， 创 建 于 1996 年 4 月 ， 以 搜索 引擎 起 家 。Alexa 每 天 在 网 上 搜集 超过 1000GB 的 信息 ， 不 仅 给 出 多 达 几 十 亿 的 网 址 链接 ， 而 且 为 其 中 的 每 一 个 网 站 进行 了 排名 。 
可 以 说 ，Alexa 是 当前 拥有 URL 数 量 最 庞大 、 排 名 信息 发 布 最 详尽 的 网 站 。 我 们 使 用 Alexa 全 球 排名 前 100 万 的 网 站 的 域名 作为 白 样本 ， 对 应 下 载 页 面 为 : 








http://www.secrepo.com/ 





Alexa 排 名 数据 格式 如 图 13-3 所 示 ， 使 用 CSV 格 式 保存 。 





youtube. com 
facebook. com 
baidu. com 
wikipedia. org 


yahoo. com 
reddit. com 
google. co. in 
qq. COm 





图 13-3 ”Alexa 排 名 数据 格式 


Alexa 排 名 数据 的 读 取 方 式 如 下 ， 读 取 CSV 文 件 ， 以 逗号 作为 分 隔 符 ， 读 取 第 1 列 : 





def load alex() : 
x=[] 
data = pd.read csvl(alexa file, sep=",",header=None) 
x=[i[1] for i in data.values] 
return x 











针对 DGA 样 本 数据 ， 我 们 以 360netlab 的 开放 数据 为 黑 样本 ( 见 图 13-4) ，360netlab 的 主页 为 : 




















http://www.secrepo.com/ 





< 一 已 | OO data.netlab.360.com/dgal/ 


MalConn Mirai Scanner Mirai C2 DRDoS Reflector 


\ J | Home DGA EK 
kk 60 m 


DGA 


DGA Families 


bamital banjori blackhole chinad conficker cryptolocker 


dircrypt dyre emotet fobber 


locky madmax 


gameover gspy 
matsnu mirai murofet necurs 


nymaim padcrypt proslikefan pykspa qadars ramnit 


ranbyus rovnix shifu simda suppobox symmi 


tempedreve tinba tofsee vawtrak vidro Virut 


Download Feeds 


如 dga.txt 


Last update at 2017-07-04 00:48:09 . 





图 13-4 360netlab 开 放 DGA 数 据 


DGA 样 本 数据 格式 如 图 13-5 所 示 ， 每 行 的 第 一 项 为 家 族 名 称 ， 第 二 列 为 对 应 域名 。 





DGA Domain List 
上 The list contains four columns: 


Feed Provided By: netlab 3608 
netlab@360.cn 


上 Mirai scanner daily statstics and bot IP check 
: data.netlab.360.com/mirai~-scanner 
DGA domain data feed 
data.netlab.360.com/dga 
Exploit Kit data feed 
data.netlab.360.com/ek 
# All data provided by netlab@360.cn 
data.netlab.360.com 
上 About Network Security Research Lab 
netlab.368.com 


vfperbkzbon.biz 2017-07-04 2017-07-04 


nymaim 


Nyma2n 


jbaafin.com 
ychxrucxi. info 


wukuhs .com 
fovvzur.net 


lvbgqjvkr.org 
mvkzsiggmp.org 


vzerlw.org 


havgevnmd .org 
pmcetaqd .com 


2017-07-04 
2017-07-04 
2017-87-04 
2017-07-04 
2017-07-04 
2017-07-04 
2917-07-04 
2017-07-04 
28017-87-084 


图 13-5 DGA 数 据 格 式 


2017-07-04 
2017-07-04 
2017-07-04 
2017-07-04 
2017-087-04 
2017-07-04 
2017-087-04 
2017-97-04 
2017-87-84 








DGA 数 据 的 读 取 方 式 如 下 ， 读 取 文 本 文件 ， 以 制 表 符 作为 分 隔 符 ， 读 取 第 1 列 ， 由 于 前 18 行 是 注释 内 容 ， 使 用 skiprows 参 数 直接 跳 过 前 18 行 : 





def load dga() : 
x=[] 
data = pd.read csv(dga file, sep="\t", header=None, 
~ skiprows=18) 
x=[i[1] for i in data.values] 
return x 





为 了 便于 在 普通 电脑 上 运行 相关 程序 ，Alexa 和 DGA 的 样本 我 们 都 取 前 10000 个 。 


13.2 ”特征 提取 


13.2.1  N-Gram 模 型 








把 域名 当做 一 个 字符 串 ， 使 用 N-Gram 建 模 ， 以 2-Gram 为 例 ， 把 baidu.com 进 行 建 模 ， 流 程 如 图 13-6 所 示 。 














‘ba’ “al “1d， ‘du’ 


baidu.com ee 


词汇 表 : ‘ba? ‘ai’? id du ‘uc’ “co” “om? 





图 13-6 DGA 域 名 进行 2-Gram 处 理 





使 用 CountVectorizer 进 行 转换 即 可 ， 其 中 ngram_range 设 置 为 (2，2) ， 表 明 使 用 2-Gram，token_pattern 设 置 为 \w'， 表 明 是 按照 字符 切 分 : 








CV = CountVectorizer( 
ngram range=(2, 2), 
token pattern=r'\w', 
decode error='ignore', 
strip accents="'ascii', 
max features=max features, 
stop words="'english', 
max_ df=1.0, 
min df=1) 

x = CV.fit transform(x) 





ngram_range 设 置 为 (2，3) ， 表 明 使 用 2-Gram 和 3-Gram。 以 单词 baidu 为 例子 ， 处 理 后 的 结果 为 : 





ba 
ai 
id 
du 
bai 
aid 
idu 





13.2 ”特征 提取 


13.2.1 N-Gram 模 型 

















把 域名 当做 一 个 字符 串 ， 使 用 N-Gram 建 模 ， 以 2-Gram 为 例 ， 把 baidu.com 进 行 建 模 ， 流 程 如 图 13-6 所 示 。 


‘ba’ ‘al’ ‘1d’ ‘du’ 
‘ue’ “co， ‘om 


baidu.com 2-Gram 处 理 


词汇 表 : “ba ai ‘id’ du uc” ‘co’ om， 





图 13-6 DGA 域 名 进行 2-Gram 处 理 











使 用 CountVectorizer 进 行 转换 即 可 ， 其 中 ngram_range 设 置 为 (2，2) ， 表 明 使 用 2-Gram，token_pattern 设 置 为 \w'， 表 明 是 按照 字符 切 分 : 














CV = CountVectorizer( 
ngram range=(2, 2), 
token pattern=r'\w', 
decode error='ignore', 
strip accents="'ascii', 
max_ features=max features, 
stop_words="'english', 
max df=1.0, 
min df=1) 

x = CV.fit transform(x) 





ngram_range 设 置 为 (2，3) ， 表 明 使 用 2-Gram 和 3-Gram。 以 单词 baidu 为 例子 ， 处 理 后 的 结果 为 : 








13.2.2 ”统计 特征 模型 


1. 元 音字 母 个 数 








正常 人 通常 在 取 域 名 的 时 候 ， 都 会 偏向 选取 “好 读 ” 的 几 个 字母 组 合 ， 抽 象 成 数学 可 以 理解 的 语言 ， 就 是 英文 的 元 音字 母 比例 会 比较 高 。DGA 生 成 域名 的 时 候 ， 由 于 时 间 因 素 是 随机 因素 ， 所 以 元 音字 
母 这 方面 的 特征 不 明显 。 

















计算 元 音字 母 的 比例 : 





def get aeiou (domain list): 
x=[] 
[] 
for domain in domain list: 
x.append (len (domain)) 
count=len (re.findall (r' [aeiou] ',domain.]lower ())) 
count=(0.0+count) /len (domain) 
y.append (count) 
return x,y 





2. 唯 一 字母 数字 个 数 


唯一 的 字母 数字 个 数 指 的 是 域名 中 去 掉 重复 的 字母 和 数字 后 的 个 数 ， 比 如 : 





baidu 唯 一 字母 数字 个 数 为 5。 
facebook 唯 一 字母 数字 个 数 为 7。 


google 唯 一 字母 数字 个 数 为 4。 











唯一 的 字母 数字 个 数 与 域名 长 度 的 比例 ， 从 某 种 程度 上 反映 了 域名 字符 组 成 的 统计 特征 。 计 算 唯一 的 字母 数字 个 数 可 以 使 用 python 的 set 数 据 结构 : 











def get uniq char num(domain list): 

ll 

王 [] 

for domain in domain list: 
x.append (len (domain)) 
count=len (set (domain)) 
count=(0.0+count) /len (domain) 
y.append (count) 

return x,y 





3. 平 均 Jarccard 系 数 
Jarccard 系 数 定义 为 两 个 集合 交集 与 并 集 元 素 个 数 的 比值 ， 本 例 的 Jarccard 系 数 是 基于 2-Gram 计 算 的 。 


计算 两 个 域名 之 间 的 Jarccard 系 数 的 方法 为 : 





def count2string jarccard index (ayb) : 

x=set(' '+a[D]) 加 
Y=set(' '+b[0]) 

for i in range(0,1en (a 

x.add (a[i]+ta[i+1]) 

x.add (a[len(a)-1]+' ') 


-1)s 


y-.add (b[i]+b[i+1] 
y.add(b[len (b) -1]+" 
return (0.0+len (x-y))/len (x|y) 


for i in range(0, len(b)-1): 
) 
) 





计算 两 个 域名 集合 的 平均 Jarccard 系 数 的 方法 为 : 





def get jarccard index(a list,b list): 
和 = 
和 上 
for a in a list: 
j=0.0 
for b in bh list: 
j+=count2string jarccard index (a,b) 
x.append (len (a)) 
y.append (j/len(b list)) 
return x,y 





13.2.3 ”字符 序列 模型 


把 域名 当做 一 个 由 字符 组 成 的 序列 ， 字 符 转换 成 对 应 的 ASClI 值 ， 这 样 就 可 以 把 域名 最 终 转换 成 一 个 数字 序列 : 





t=[] 
for 1 Jn x 
ll 
for j in range(0,1en(i)): 
Vv.append (ord (i[j])) 
t.append (v) 
Wt 





13.3 ”模型 训 





练 与 验证 


13.3.1 ”朴素 贝 叶 斯 算法 





使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 N-Gram 模 型 ， 完 整 的 处 理 流程 如 图 13-7 所 示 。 


朴 孙 贝 叶 斯 
算法 训练 








13-7 “特征 提取 使 用 2-Gram 模 型 的 朴素 贝 叶 斯 算法 处 理 流程 











1) 将 数据 集 提 取 2-Gram。 
2) 随机 划分 为 训练 集 和 测试 集 。 


3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 





4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 


5) 验证 朴素 贝 叶 斯 算法 预测 效果 。 





实例 化 朴素 贝 叶 斯 算法 ， 使 用 训练 集训 练 ， 针 对 测试 集 进 行 预测 : 





gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 














在 使 用 2-Gram 情 况 下 ， 整 个 系统 准确 度 为 83%， 召 回 率 80%，TP、FP、TN、FN 和 矩阵 见 表 13-1。 














表 13-1 基于 2-Gram 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 不 相 关 








ss 
检索 到 203 
- 上 AA 己 记 
未 检索 到 2570 
完整 输出 结果 为 : 
2-gram & nb 
2-gram & nb 
precision recall fl-score support 
0 0.74 0.95 0.83 4041 
1 0.93 0.65 0.76 3952 
avg / total 0.83 0.80 0.80 7993 
[[3838 203] 


[1382 2570]] 

















使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 统计 特征 模型 ， 完 整 的 处 理 流程 如 图 13-8 所 示 。 




















| 


将 数据 集 提 取 统 计 特 征 。 


2) 随机 划分 为 训练 集 和 测试 集 。 














3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 




















4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





5) 验证 朴素 贝 叶 斯 算法 预测 效果 。 











实例 化 朴素 贝 叶 斯 算法 ， 使 用 训练 集训 练 ， 针 对 测试 集 进行 预测 : 











gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 





提取 统计 特征 


样本 划分 


训练 集 


效果 验证 


图 13-8 ”特征 提取 使 用 统计 特征 模型 的 朴素 贝 叶 斯 算法 处 理 流程 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 





整个 系统 准确 度 为 75%， 召 回 率 71%，TP、FP、TN、FN 和 矩阵 见 表 13-2。 


表 13-2 ”基于 统计 特征 模型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 不 相 关 


检索 到 355 
未 检索 到 2023 





完整 输出 结果 为 : 





text feature & nb 
Precision recall fl1-score support 


0 0.65 QI V76 4009 


1 0.85 DS 0.64 3984 

avg / total Da75 0.71 0.70 7993 
[[3654 355] 
[1961 2023]] 





13.3 ”模型 训练 与 验证 


13.3.1 ”朴素 贝 叶 斯 算法 





使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 N-Gram 模 型 ， 完 整 的 处 理 流程 如 图 13-7 所 示 。 











训练 集 测试 集 


朴 对 由 叶 斯 
算法 训练 


效 玉 验证 





图 13-7 ”特征 提取 使 用 2-Gram 模 型 的 朴素 贝 叶 斯 算法 处 理 流 程 


1) 将 数据 集 提 取 2-Gram。 


2) 随机 划分 为 训练 集 和 测试 集 。 











3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








5) 验证 朴素 贝 叶 斯 算法 预测 效果 。 











实例 化 朴素 贝 叶 斯 算法 ， 使 用 训练 集训 练 ， 针 对 测试 集 进 行 预测 : 














gnb = GaussianNB () 
gnb.fit (x train,y _ train) 
y_pred=gnb.predict (x_test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 























在 使 用 2-Gram 情 况 下 ， 整 个 系统 准确 度 为 83%， 召 回 率 80%，TP、FP、TN、FN 和 矩阵 见 表 13-1。 





表 13-1 基于 2-Gram 模 型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 不 相 关 





八 - 
检索 到 203 
-上 人 人 二 
未 检索 到 2570 
完整 输出 结果 为 : 
2-gram & nb 
2-gram & nb 
Precision recall fl-score support 
0 0.74 0.95 0.83 4041 
1 0.93 0.65 0.76 3952 
avg / total 0.83 0.80 0.80 7993 
[[3838 203] 


[1382 2570]] 























使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 统计 特征 模型 ， 完 整 的 处 理 流程 如 图 13-8 所 示 。 

















将 数据 集 提 取 统 计 特 征 。 


2) 随机 划分 为 训练 集 和 测试 集 。 














3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 




















4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





5) 验证 朴素 贝 叶 斯 算法 预测 效果 。 











实例 化 朴素 贝 叶 斯 算法 ， 使 用 训练 集训 练 ， 针 对 测试 集 进 行 预测 : 











gnb = GaussianNB () 
gnb.fit (x train,y train) 
y_pred=gnb.predict (x_test) 


提取 统计 特征 


样本 划分 


训练 集 


效果 验证 


图 13-8 ”特征 提取 使 用 统计 特征 模型 的 朴素 贝 叶 斯 算法 处 理 流程 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 





整个 系统 准确 度 为 75%， 召 回 率 71%，TP、FP、TN、FN 和 矩阵 见 表 13-2。 


表 13-2 ”基于 统计 特征 模型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 不 相 关 


检索 到 355 
未 检索 到 2023 





完整 输出 结果 为 : 





text feature & nb 
Precision recall fl1-score support 


0 0.65 QI V76 4009 


1 0.85 DS 0.64 3984 

avg / total Da75 0.71 0.70 7993 
[[3654 355] 
[1961 2023]] 





13.3.2 XGBoost 算 法 





使 用 XGBoost 算 法 ， 特 征 提取 使 用 N-Gram 模 型 ， 完 整 的 处 理 流程 如 图 13-9 所 示 。 








1) 将 数据 集 提 取 N-Gram。 


2) 随机 划分 为 训练 集 和 测试 集 。 





3) 使 用 XGBoost 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 


4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





5) 验证 XGBoost 算 法 预测 效果 。 


提取 2-Gram 





训练 集 


XGBoost 
算法 训练 











13-9 ”特征 提取 使 用 2-Gram 模 型 的 XGBoost 算 法 处 理 流 程 





实例 化 XGBoost 算 法 ， 使 用 训练 集训 练 ， 针 对 测试 集 进行 预测 : 





xgb model = xgb.XGBClassifier() .fit(x_ train, y _ train) 
y_pred = xgb model.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 

















在 使 用 2-Gram 情 况 下 ， 整 个 系统 准确 度 为 84%， 召 回 率 8398，TP、FP、TN、FN 和 矩阵 见 表 13-3。 











表 13-3 ”基于 2-Gram 模 型 的 XGBoost 算 法 验证 结果 


类 型 名 称 不 相 关 





上 信 己 
检索 到 923 
- 林 人 去 
未 检索 到 3583 
完整 输出 结果 为 : 
2-gram & XGBoost 
precision recall fl-score support 
0 0.88 7 0.82 3999 
二 0.80 0.90 0.84 3994 
avg / total 0.84 0.83 0.83 7993 
[[3076 923] 


[ 411 3583]] 




















使 用 XGBoost 算 法 ， 特 征 提取 使 用 统计 特征 模型 ， 完 整 的 处 理 流程 如 图 13-10 所 示 。 

















将 数据 集 提取 统计 特征 。 


2) 随机 划分 为 训练 集 和 测试 集 。 








3) 使 用 XGBoost 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 























4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





w 


验证 XGBoost 算 法 预测 效果 。 


提取 统计 特征 


训练 集 


XCGBoost 
算法 训练 


效果 验证 


图 13-10 ”特征 提取 使 用 统计 特征 模型 的 XGBoost 算 法 处 理 流程 





实例 化 XGBoost 算 法 ， 使 用 训练 集训 练 ， 针 对 测试 集 进行 预测 : 





xgb model = xgb.XGBClassifier() .fit(x_ train, y _ train) 
y_Pred = xgb model.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 





整个 系统 准确 度 为 86%， 召 回 率 86%，TP、FP、TN、FN 和 矩阵 见 表 13-4。 


表 13-4 基于 统计 特征 模型 的 XGBoost 算 法 验证 结果 






类 型 名称 
检索 到 
未 检索 到 






完整 输出 结果 为 : 





text feature & xgboost 


Precision recall fl1-score support 

0 0.84 0;.91 0.8 4085 

D.29 0.81 0.85 3908 

avg / total 0.86 0.86 0.86 7993 
[[3701 384] 
[ 731 3177]] 





13.3.3 ”深度 学 习 算法 之 多 层 感 知 机 





使 用 多 层 感知 机 算法 ， 特 征 提取 使 用 N-Gram 模 型 ， 完 整 的 处 理 流程 如 图 13-11 所 示 。 















样本 划分 


训练 集 


多 层 感 知 机 
算法 训练 








图 13-11 ”特征 提取 使 用 2-Gram 模 型 的 多 层 感 知 机 算法 处 理 流程 








1) 将 数据 集 提取 N-Gram。 


2) 随机 划分 为 训练 集 和 测试 集 。 








3) 使 用 多 层 感知 机 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 














5) 验证 多 层 感知 机 算法 预测 


效果 。 

















实例 化 多 层 感知 机 算法 ， 使 


训练 集训 练 ， 针 对 测试 集 进 行 预测 。 











clf = MLPClassifier (solver="'lbfgs', alpha=le-5, hidden layer sizes = (5, 2), random state = 1) 


clf.fit (x train, y train) 


y_pred = clf.predict (x test) 





评估 结果 的 准确 度 和 TP、FP 


、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 














在 使 用 2-Gram 情 况 下 ， 整 个 系统 准确 度 为 95%， 召 回 率 959%，TP、FP、TN、FN 和 矩阵 见 表 13-5。 








se 
> 








表 13-5 基于 2-Gram 模 型 的 多 层 感 知 机 算法 验证 结果 


型 名 称 





不 相 关 





xs 寺 > 
仿 索 到 229 
“相信 帮 忆 
未 检索 到 3823 
完整 输出 结果 为 : 
2- & ml 
precision recall fl-score support 
0 0.55 0.94 U95 3972 
1 0.94 0.95 0.95 4021 
avg / total 0.95 0.95 0.55 7993 
[[3743 229] 


[ 198 3823]] 











在 使 用 2-Gram 和 3-Gram 情 况 下 ， 整 个 系统 准确 度 为 97%， 召 回 率 97%， 








类 型 名 称 
检索 到 
未 检索 到 


完整 输出 结果 为 : 





表 13-6 ”基于 2-Gram 和 3-Gram 模 型 的 多 层 感 知 机 算法 验证 结果 


TP、FP、TN、FN 和 矩阵 见 表 13-6。 





不 相 关 
107 
3873 





23-gram & mlp 


Precision 
0 0:97 
1 0.97 
avg / total 0.97 
[[3897 107] 
[ 116 3873]] 


recall fl-score support 


D297 0.97 4004 
0.97 D97 3989 
0Q.97 D97 7993 











使 用 多 层 感知 机 算法 ， 特 征 提取 使 用 统计 特征 模型 ， 完 整 的 处 理 流程 如 图 








1) 将 数据 集 提取 统计 特征 。 

















2) 随机 划分 为 训练 集 和 测试 集 。 








3) 使 用 多 层 感知 机 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 











5) 验证 多 层 感知 机 算法 预测 效果 。 


13-12 所 示 。 


提取 统计 特征 


样本 划分 


多 层 感 知 机 
算法 训练 





图 13-12 ”特征 提取 使 用 统计 特征 模型 的 多 层 感 知 机 算法 处 理 流程 











实例 化 多 层 感知 机 算法 ， 使 用 训练 集训 练 ， 针 对 测试 集 进 行 预测 : 











clf = MLPClassifier (solver="'lbfgs', alpha=le-5, hidden layer sizes = (5, 2), random state = 1) 
clf.fit (x train, y train) 
y_pred = clf.predict (x test) 





评估 结果 的 准确 度 和 TP、FP、TN、FN4 个 值 : 





print metrics.accuracy scorel(ly test, y pred) 
print metrics.confusion matrix(y test, y pred) 





整个 系统 准确 度 为 86%， 召 回 率 86%，TP、FP、TN、FN 和 矩阵 见 表 13-7。 


表 13-7 基于 统计 特征 模型 的 多 层 感 知 机 算法 验证 结果 


类 型 名 称 不 相 关 





WA 
检索 到 319 
“相信 专 
未 检索 到 3193 
完整 输出 结果 为 : 
text feature & mlp 
Precision recall fl-score support 
0 0.82 0.92 0.87 3996 
1 0.91 0.80 0.85 3997 
avg / total 0.86 0.86 0.86 7993 
[[3677 319] 
[ 804 3193]] 


13.3.4 ”深度 学 习 算 法 之 RNN 























使 用 RNN 算 法 ， 特 征 提取 使 用 字符 序列 模型 ， 完 整 的 处 理 流程 如 图 13-13 所 示 。 





























将 数据 集 提取 字符 序列 。 


2) 随机 划分 为 训练 集 和 测试 集 。 








3) 使 用 RNN 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 




















4) 使 用 RNN 算 法 在 测试 集 上 进行 预测 。 





w 


验证 RNN 算 法 预测 效果 。 


性 本 数据 


提取 字符 序列 


RNN 
算法 训练 





图 13-13 ”特征 提取 使 用 字符 序列 模型 的 RNN 算 法 处 理 流程 


将 训练 和 测试 数据 进行 填充 和 转换 ， 不 到 最 大 长 度 的 数据 填充 0， 由 于 是 二 分 类 问题 ， 把 标记 数据 二 值 化 。 定 义 输入 参数 的 最 大 长 度 为 文档 的 最 大 长 度 : 





trainX = pad sequences (trainX, maxlen=max _ document length, value=0.) 
testX = pad_sequences (testX, maxlen=max document length, value=0.) 

# Converting labels to binary vectors 

trainY = to categorical (trainY, nb classes=2) 

testY = to categorical (test¥Y, nb classes=2) 

network = input data(shape=[None,max document length], name='input') 

















定义 RNN 结 构 ， 使 用 最 简单 的 单 层 LSTM 结 构 : 

















# Network building 
net = tflearn.input data([None, max document length]) 





net = tflearn.embedding (net, input dim=1024000, output dim=128) 

net = tflearn.lstm(net, 128, dropout=0.8) 0 

net = tflearn.fully_connected (net, 2, activation='softmax') 

net = tflearn.regression (net, optimizer='adam', learning rate=0.001,1oss='categorical crossentropy') 





实例 化 RNN 对 象 并 进行 训练 数据 ， 一 共 训练 5 轮 : 





# Training 
model = tflearn.DNN (net, tensorboard verbose=0) 
model .fit (trainx, train¥Y, validation set=(testX, test¥), show metric=True, 


batch_size=10, run id="DGA",n epoch=5) 





RNN 的 结构 如 图 13-14 所 示 。 





整个 系统 准确 度 为 819， 召 回 率 80%，TP、FP、TN、FN 和 矩阵 见 表 13-8。 


表 13-8 基于 字符 序列 模型 的 RNN 算 法 验证 结果 








类 型 名 称 不 相 关 
检索 到 477 
未 检索 到 2919 
完整 输出 结果 为 : 
text feature & nn 
Precision recall fl-score support 
0 .76 0.88 0.82 3974 
中 0.86 0.73 全 4019 
avg / total Dal 0.80 0.80 7993 
[[3497 477] 


[1100 2919]] 
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图 13-14 ”处 理 DGA 的 RNN 结 构图 


13.4 ”本 章 小 结 


本 章 介绍 DGA 域 名 识别 使 用 的 数据 集 以 及 特征 提取 方法 ， 包 括 N-Gram 模 型 、 统 计 特 征 模型 和 字符 序列 模型 ; 介绍 使 用 的 算法 以 及 对 应 的 验证 结果 ， 包 括 朴素 贝 叶 斯 算法 、XGBoost 算 法 和 深度 学 习 算 
法 。 对 比 发 现 ， 在 使 用 本 章 的 数据 集 的 情况 下 ， 当 使 用 相同 的 特征 提取 方法 (比如 N-Gram) 时 ， 多 层 感 知 机 效果 最 好 ; 当 使 用 同一 算法 时 ， 特 征 提取 算法 N-Gram 模 型 效果 最 好 。 综 合 各 种 情况 ， 特 征 提 
取 使 用 2-Gram 和 3-Gram 模 型 ， 算 法 使 用 多 层 感 知 机 效果 最 佳 。 实 际 使 用 中 结合 DNS 注 册 信 息 以 及 DNS 解 析 细 信息 ， 可 以 达到 99% 以 上 准确 率 。 












































第 14 章 ”恶意 程序 分 类 识别 




















北京 时 间 2017 年 5 月 12 日 ， 一 款 名 为 “WannaCry” 的 勒索 软件 在 全 球 范围 内 爆发 ， 造 成 极 大 影响 ( 见 图 14-1) 。 此 次 爆发 的 “WannaCry” 勒 索 软件 来 自 “ 永 恒 之 蓝 ” (EternalBlue) ， 主 要 利用 微 
软 Windows 操 作 系统 的 MS17-010 漏 洞 进行 自动 传播 。 相 关 数 据 显 示 ， 每 小 时 攻击 次 数 高 达 4000 余 次 。 “永恒 之 蓝 ” 是 一 种 特洛伊 加 密 软件 ， 利 用 Windows 操 作 系统 在 445 端 口 的 安全 漏洞 潜入 电脑 ， 对 多 
种 文件 类 型 加 密 并 添加 .onion 后 级 ， 使 用 户 无 法 打开 。 涉 及 百 余 个 国家 和 地 区 的 政府 、 电 力 、 电 信 、 医 疗 机 构 等 重要 信息 系统 及 个 人 电脑 遭受 到 此 次 严重 的 网 络 攻击 ， 最 严重 区 域 集中 在 美国 、 欧 洲 、 澳 洲 


等 。 从 受 攻击 目标 类 型 与 地 域 分 布 来 看 ， 此 次 攻击 未 表现 出 显著 的 地 域 与 行业 分 布 特点 ， 与 “WannaCry” 随 机 扫描 传播 机 制 一 致 ， 攻 击 无 明显 指向 性 和 目标 性 [1]。 
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图 14-1 被 勒索 软件 感染 的 机 场 显示 屏 








勒索 软件 是 恶意 程序 中 的 蠕虫 的 一 种 ， 常 见 的 恶意 程序 包括 木马 、 病 毒 、 蠕 虫 等 。 网 络 蠕虫 程序 是 一 种 使 用 网 络 连 接 从 一 个 系统 传播 到 另 一 个 系统 的 感染 病毒 程序 。 一 旦 这 种 程序 在 系统 中 被 激活 ， 网 
络 蠕虫 表现 得 像 计算 机 病毒 或 细菌 ， 或 者 可 以 注入 特洛伊 木马 程序 ， 或 者 进行 任意 次 数 的 破坏 或 毁灭 行动 。 传 播 途 径 常见 的 有 系统 漏洞 、 系 统 弦 密码 、 电 子 邮 件 、1M 中 的 恶意 链接 等 [9]。 





















































常见 的 恶意 程序 识别 方法 主要 依据 是 静态 文件 特征 码 和 高 危 动 态 行为 特征 等 ， 会 随 着 恶意 程序 呈 指 数 级 增长 。 传 统 的 基于 规则 的 检测 技术 已 经 难以 覆盖 全 部 恶意 程序 ， 终 端 安全 厂商 将 大 量 的 人 力 物 力 
投入 到 使 用 沙 箱 以 及 机 器 学 习 技 术 上 ， 希 望 可 以 有 效 提高 识别 恶意 程序 的 能 力 。 

















本 章 主要 以 MIST 数 据 集 为 例 介 绍 恶意 程序 的 分 类 识别 技术 ， 使 用 特征 提取 方法 为 2-Gram 和 TF-IDF 模 型 ， 介 绍 的 分 类 算法 包括 支持 向 量 机 、XGBoost 和 多 层 感 知 机 。 





本 章 演 示 代码 请 参考 本 书 GitHub 上 的 malware.py 文 件 。 


[1] http://www.freebuf.com/news/134624.html 


[2] http://Awww.baike.comy/wiki/%E6%81%B6%E6%84%8F%E7%A8%8B%E5%BA%8F 


14.1 数据 集 





测试 数据 来 自 Marco Ramilli 的 MIST 数 据 集 [1] (Malware Instruction Set for Behaviour Analysis) ，MIST 通 过 分 析 大 量 的 恶意 程序 ， 提 取 静 态 的 文件 特征 以 及 动态 的 程序 行为 特征 ， 对 应 的 数据 特征 
获取 过 程 如 图 14-2 所 示 。 
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图 14-2 MIST 数 据 集 的 特征 获取 过 程 








MIST 的 特征 提取 主要 使 用 CWSandbox，CWSandbox 是 一 款 在 线 分 析 恶 意 程序 的 软件 ( 见 图 14-3) ， 支 持 最 大 16M 的 文件 以 及 压缩 包 ， 如 果 是 压缩 包 最 多 支持 50 个 文件 的 扫描 [2]。 





File Changes Registry Changes 
© Submission Details 


Date 20.09.2009 19:10:30 
Sandbox Version "7 

File Name c’\_Everything1.2.1.371.exe 
Submitting Email 


Total Number of Processes 2 
Termination Reason Timeout 

Start Time 00:01.562 
Stop Time 02:01.734 
Start Reason AnalysisTarget 


© Analysis HighLights 


Spawned Processes Found 1 Processes. (View Activity by Process) 
Filesystem Changes View File Changes 

Registry Changes View Registry Changes 

Network Activity View Network Activity 


图 14-3 CWSandbox 恶 意 程 序 提交 后 的 分 析 结 果 

















通过 CWSandbox 分 析 某 可 执行 文件 程序 加 载 动态 链接 库 (dll) 的 行为 ， 如 图 14-4 所 示 ， 某 可 执行 程序 使 用 系统 调用 load_all 加 载 名 称 为 kernel32.dll 的 dll 文 件 ，MI1ST 将 这 一 行为 以 XML 元 素 的 形式 保 
存在 JSON 文 件 中 。 














<load_dll filename="C:NWINDOWSNsystem32\kerne132.d11" successful="1" 
address="#7C800000" end_address="#7C908000" size="1081344" 


filename_hash="c88d57cc99f75cd928b47b6e444231f26670138f"/> 





a) CWSandbox representation 


"cs:\windows\system32\" parameter successful 
a ey ~ 
02 02 | 00006b2c 0c7d3f9c | 00108000 0c94b872 | 00000000 7c800000 7c908000 10 
TE i Ni Ns Ne 


load dll  ， "dll" 。 size "kernel32" ， address end address 





b) MIST representation 











14-4 CWSandbox 识 别 加 载 动 态 链接 库 行为 








MIST 数 据 集 把 每 个 恶意 程序 的 特征 以 JSON 文 件 的 形式 保存 成 一 个 独立 的 文件 ， 常 见 的 特征 属性 如 下 : 








"file _ access': 138759, 
'sig infostealer ftp': 13114, 
'sig modifies hostfile': 5, 
'sig removes zoneid ads': 16, 
'sig disables uac': 33, 
'sig static versioninfo anomaly': 0, 
'sig stealth webhistory": 417, 
'reg write': 11942, 
'sig network cnc http': 132 





以 恶意 程序 EquationGroup.GROK-1201128 为 例 ， 对 应 的 JSON 文 件 内 容 举 例如 下 ， 特 征集 中 在 properties 标 签 ， 其 中 label 标 识 恶 意 程序 名 称 : 





{"entityId": 1201128, "entityType": "content", "event": "malware", "eventTime": "2016-12-15T09:04:00.067+0000", "properties": {"pe_sec_entropy": "55220170 196605f2 22e72d33 c0C 





MIST 目 前 包含 的 恶意 程序 如 下 ， 主 要 分 为 APT、Crypto、Locker 和 Zeus4 类 。 


* APT1292Samples。 

* Crypto2024Samples。 
* Locker434Samples。 
* Zeus2014Samples。 


MIST 数 据 集 的 下 载 地 址 为 : 








https://github.com/marcoramilli/MalwareTrainingSets 

















另外 还 给 读者 推荐 使 用 kaggle 上 的 一 个 数据 集 ， 地 址 为 : 





https://www.kaggle.com/c/malware-classification 








下 载 前 需要 先 注册 kaggle 账 户 ，kaggle 是 一 个 数据 分 析 的 竞赛 平台 ， 企 业 或 者 研究 者 可 以 将 数据 、 问 题 描述 、 期 望 的 指标 发 布 到 kaggle 上 ， 以 竞赛 的 形式 向 广大 的 数据 科学 家 征集 解决 方案 ， 类 似 于 国 
际 知识 发 现 和 数据 挖掘 竞赛 (KDD-CUP) 。kaggle 上 的 参赛 者 将 数据 下 载 下 来 ( 见 图 14-5) ， 分 析 数 据 ， 然 后 运用 机 器 学 习 、 数 据 挖 握 等 知识 ， 建 立 算法 模型 ， 解 决 问题 得 出 结果 ， 最 后 将 结果 提交 。 如 
果 提 交 的 结果 符合 指标 要 求 并 且 在 参赛 者 中 排名 第 一 ， 将 获得 丰厚 的 比赛 奖金 。 由 于 kaggle 注 册页 面 的 人 机 验证 环节 需要 使 用 国外 的 一 个 服务 ， 正 好 该 服务 在 国内 访问 机 器 不 稳定 ， 需 要 大 家 想 办 法 解决 。 
另外 该 数据 集 解压 后 超过 了 500G ， 下 载 前 建议 大 家 先 检查 本 地 硬盘 大 小 。 















































所 CG | 8 安全 https://www.kaggle.com/c/malware-classification 





Search kaggle Q [0 


Microsoft Malware Classification Challenge (BIG 2015) 


M icrosoft Classify malware into families based on file content and characteristics 
$16,000 . 377 teams . 2 years ago 


Overview Data Discussion Leaderboard Rules 


Description In recent years, the malware industry has become a well organized market involving large amounts of 
money. Well funded, multi-player syndicates invest heavily in technologies and capabilities built to evade 

Evaluation traditional protection, requiring anti-malware vendors to develop counter mechanisms for finding and 

Prizes deactivating them. In the meantime, they inflict real financial and emotional pain to users of computer 
systems. 

Timeline 





图 14-5 ”kaggle 比 赛 中 使 用 的 恶意 程序 数据 集 
[1] http://marcoramilli.blogspot.it/2016/12/malware-training-sets-machine-learning.html 


[2] https:/ /www.rarst.net/web/cwsandbox/ 


14.2 ”特征 提取 








本 章 的 特征 提取 相对 其 他 章节 要 容易 很 多 ， 因 为 MIST 本 身 已 经 帮助 我 们 完成 了 大 量 特征 提取 工作 。 











MIST 把 系统 调用 以 及 文件 静态 特征 保存 成 JSJON 文 件 形式 ， 完 全 可 以 使 用 文本 处 理 方法 进行 处 理 。MIST 的 数据 文件 保存 在 APT、Crypto、Locker 和 Zeus4 个 文件 夹 下面 ， 分 别 代表 了 4 类 恶意 程序 。 以 
APT 文 件 夹 下 面 的 文件 为 例 ， 遍 历 目录 下 所 有 文件 ， 将 整个 文件 以 字符 串 的 形式 保存 。 其 中 需要 特别 说 明 的 是 ， 文 件 中 包含 恶意 程序 的 名 称 ， 通 常 恶 意 程序 的 名 称 都 包含 APT、Crypto、Locker 和 Zeus 这 样 
的 关键 字 ， 为 了 避免 程序 名 称 对 分 类 算法 的 干扰 ， 我 们 会 用 空格 来 蔡 换 这 些 关 键 字 ， 这 种 蔡 换 是 忽略 大 小 写 的 ， 所 以 会 使 用 re.1: 






































import glob 
files=glob.glob (dir) 
result = [] 
for file in files: 
with open (file) as f: 
lines=f.readlines () 
lines to line=" ".join(lines) 
lines to line = re.subl(r"[APT|Crypto|Locker|Zeus]", ' ', lines to line,flags=re.I) 


result.append (lines to line) 
return result 





遍历 APT、Crypto、Locker 和 Zeus4 个 文件 夹 下 的 文件 ， 分 别 给 这 4 个 文件 夹 下 的 文件 分 配对 应 标签 1~4， 以 对 应 不 同 的 恶意 程序 分 类 : 





malware_class=["'APT', 'Crypto', 'Locker', 'Zeus'] 
x=[] 
=[] 
for i,family in enumerate (malware class): 
dir="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/malware/MalwareTrainingSets-master/trainingSets/%s/*" % 
Print "Load files from %s" % dir 
Vv=load files from dir(dir) 
X+=V 
yt+=[i]*len (v) 
return x,y 





至 此 我 们 完成 了 原始 文件 的 加 载 ， 并 且 原 始 文件 以 字符 串 的 形式 保存 。 下 面 我 们 开始 文本 处 理 过 程 : 











x, y=l0ad files() 





首先 我 们 以 单词 为 单位 切 分 文件 ， 提 取 N-Gram 特 征 ，ngram_range 设 置 为 (2，2) ， 表 明 使 用 2-Gram; token_pattern 设 置 为 r\b\w+\b'， 表 明 以 单词 为 单位 切 分 : 





Vectorizer = CountVectorizer( 
decode error='ignore', 
ngram range=(2, 2), 
strip accents="'ascii', 
max features=max features, 
stop_words='english', 
max df=1.0, 
min df=1, 
token pattern=r'\b\w+\b', 
binary=True) 
x=vectorizer.fit transform(x) 











然后 使 用 TF-IDF 进 一 步 处 理 ， 提 升 算法 分 类 性 能 : 











transformer = TfidfTransformer (smooth idf=False) 
x = transformer.fit transform(x) 





最 后 随机 划分 训练 集 和 测试 集 : 





x train, x test, y train, y test = train test split(x, y, test size=0.4) 





14.3 ”模型 训 





练 与 验证 


14.3.1 ”支持 向 量 机 算法 














使 用 支持 向 量 机 算法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 14-6 所 示 。 

















将 MIST 数 据 集 的 文件 提取 2-Gram。 








2) 使 用 TF-IDF 处 理 。 


3) 随机 划分 为 训练 集 和 测试 集 。 











4) 使 用 支持 向 量 机 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





6) 验证 支持 向 量 机 算法 预测 效果 。 


提取 2-Gram 





TF-IDF 处 理 


测试 集 


支持 问 量 机 
算法 训练 





图 14-6 ”特征 提取 使 用 2-Gram 和 TF-IDF 模 型 的 支持 向 量 机 算法 处 理 流程 


使 用 支持 向 量 机 算法 ， 特 征 提取 使 用 2-Gram 和 TF-IDF 模 型 : 





clf = svm.SVC (kernel='linear', C=1.0) 
clf.fit (x train, y train) 
Y_Pred = clf.predict (x test) 





评估 结果 ， 包 括 准 确 度 和 召回 率 : 





print metrics.accuracy scorel(ly test, y pred) 





使 用 2-Gram 和 TF-IDF 模 型 时 ， 整 个 系统 准确 度 为 95%， 召 回 率 为 95%， 完 整 输出 结果 为 : 








CountVectorizer (analyzer=u'word', binary=True, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=1000, min df=1, 

ngram range=(2, 2), preprocessor=None, stop words="english', 
strip accents="'ascii', token pattern="'\\b\\wt\\b', tokenizer=None, 
vocabulary=None) 


precision recall fl-score support 
1 0.93 0.59 0.96 840 
将 0.95 v.91 0.93 161 
3 0.98 0.92 0.95 787 
avg / total D95 0.95 V95 1788 





14.3 ”模型 训 


14.3.1 
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练 与 验证 


支持 向 量 机 算法 
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支持 向 量 机 算法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 14-6 所 示 。 











将 MIST 数 据 集 的 文件 提取 2-Gram。 








使 用 TF-IDF 处 理 。 





随机 划分 为 


1 练 集 和 测试 集 。 




















使 用 支持 向 量 机 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














使 用 模型 数 





居 在 测试 集 上 进行 预测 。 


验证 支持 向 量 机 算法 预测 效果 。 


提取 2-Gram 





TF-IDF 处 理 


测试 集 


支持 问 量 机 
算法 训练 





图 14-6 ”特征 提取 使 用 2-Gram 和 TF-IDF 模 型 的 支持 向 量 机 算法 处 理 流程 


使 用 支持 向 量 机 算法 ， 特 征 提取 使 用 2-Gram 和 TF-IDF 模 型 : 





clf = svm.SVC (kernel='linear', C=1.0) 
clf.fit (x train, y train) 
Y_Pred = clf.predict (x test) 





评估 结果 ， 包 括 准 确 度 和 召回 率 : 





print metrics.accuracy scorel(ly test, y pred) 





使 用 2-Gram 和 TF-IDF 模 型 时 ， 整 个 系统 准确 度 为 95%， 召 回 率 为 95%， 完 整 输出 结果 为 : 








CountVectorizer (analyzer=u'word', binary=True, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=1000, min df=1, 
ngram range=(2, 2), preprocessor=None, stop words="english', 
strip accents="'ascii', token pattern="'\\b\\wt\\b', tokenizer=None, 


Vocabulary=None) 
Precision recall fl-score support 
1 ,93 0.99 0.96 840 
艺 0.95 0 全 0.93 161 
3 0.98 0.92 0.95 787 
avg / total 0.95 0.95 0.95 1788 





14.3.2 XGBoost 算 法 


使 用 XGBoost 算 法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 14-7 所 示 。 











将 MIST 数 据 集 的 文件 提取 2-Gram。 


2) 使 用 TF-IDF 处 理 。 


Wu 


随机 划分 为 训练 集 和 测试 集 。 


4) 使 用 XGBoost 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 





5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





6) 验证 XGBoost 算 法 预测 效果 。 






MIST 数 据 集 


提取 2-Gram 


TF-IDF 人 处理 


测试 集 





XGBoost 
算法 训练 


图 14-7 ”特征 提取 使 用 2-Gram 和 TF-IDF 模 型 的 XGBoost 算 法 处 理 流程 








使 用 XGBoost 算 法 ， 特 征 提取 使 用 2-Gram 和 TF-IDF 模 型 : 














xgb model = xgb.XGBClassifier().fit(x train, y train) 
y_pred = xgb model.predict (x test) 





评估 结果 ， 包 括 准确 度 和 召回 率 : 





print metrics.accuracy scorel(ly test, y pred) 











使 用 2-Gram 和 TF-IDF 模 型 时 ， 整 个 系统 准确 度 为 96%， 召 回 率 为 96%， 完 整 输出 结果 为 : 














CountVectorizer (analyzer=u'word', binary=True, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=1000, min df=1, 
ngram range=(2, 2), preprocessor=None, stop words="'english', 
strip accents="'ascii', token pattern='\\b\\wt\\b', tokenizer=None, 


vocabulary=None) 
precision recall fil-score support 
i 0.94 0.98 0 831 
名 .5 V92 33 1 
3 0.98 0.94 0.96 786 
avg / total D96 0.96 0.96 1788 





14.3.3 ”深度 学 习 算法 之 多 层 感 知 机 








使 用 多 层 感知 机 算法 ， 特 征 提取 使 用 N-Gram 和 TF-IDF 模 型 ， 完 整 的 处 理 流程 如 图 14-8 所 示 。 














1) 将 MIST 数 据 集 的 文件 提取 2-Gram。 
2) 使 用 TF-IDF 处 理 。 


3) 随机 划分 为 训练 集 和 测试 集 。 





4) 使 用 多 层 感 知 机 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








6) 验证 多 层 感知 机 算法 预测 效果 。 











使 用 多 层 感知 机 算法 ， 特 征 提取 使 用 2-Gram 和 TF-IDF 模 型 : 














clf = MLPClassifier (solver="'lbfgs', 
alpha=le-5, 
hidden layer sizes = (10, 4), 
random state = 1) 

clf.fit (x train, y train) 

y_pred = clf.predict (x test) 





评估 结果 ， 包 括 准 确 度 和 召回 率 : 





print metrics.accuracy scorel(ly test, y pred) 








TF-IDF 处 理 


多 层 感 知 机 
算法 训练 


图 14-8 ”特征 提取 使 用 2-Gram 和 TF-IDF 模 型 的 多 层 感 知 机 算法 处 理 流程 





使 用 2-Gram 和 TF-IDF 模 型 时 ， 整 个 系统 准确 度 为 94%， 召 回 率 为 94%， 完 整 输出 结果 为 : 








CountVectorizer (analyzer=u'word', binary=True, decode error='ignore', 
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content', 
lowercase=True, max df=1.0, max features=1000, min df=1, 
ngram range=(2, 2), preprocessor=None, stop words="'english', 
strip accents='ascii', token pattern='\\b\\wt\\b', tokenizer=None, 


Vocabulary=None) 
Precision recall fl-score support 
1 0.94 0d.95 0.94 810 
2 [4 0.88 0 173 
3 0.94 0.94 0.94 805 
avg / total 0.94 0.94 0.94 1788 





14.4 ”本 章 小 结 


本 章 基于 MIST 数 据 集 介绍 了 恶意 程序 的 分 类 算法 ， 通 过 测试 可 以 发 现 ， 在 特征 提取 基于 2-Gram 和 TF-IDF 模 型 的 情况 下 ， 支 持 向 量 机 算法 、XGBoost 算 法 和 多 层 感知 机 算法 都 达到 了 95% 左 右 的 准确 度 
和 召回 率 ， 其 中 XGBoost 效 果 最 好 ， 准 确 度 和 召回 率 均 达到 了 96%。 由 于 受 数据 集 限 制 ， 没 有 办 法 直接 使 用 基于 opcode 的 N-Gram 进 行 特征 提取 ， 有 兴趣 的 读者 可 以 尝试 kaggle 提 供 的 恶意 程序 数据 集 。 


















































第 15 章 ” 反 信 用 卡 欺诈 
































信用 卡 欺 诈 是 指 故意 使 用 仿造、 作废 的 信用 卡 ， 冒 用 他 人 的 信用 卡 骗取 财物 ， 或 用 本 人 信用 卡 进行 恶意 透支 的 行为 ， 常 见 的 信用 卡其 诈 主要 包括 以 下 几 种 形式 。 



































: 失 卡 冒 用 。 失 卡 一 般 有 三 种 情况 ， 一 是 发 卡 银行 在 向 持 卡 人 寄 卡 时 丢失 ， 即 未 达 卡 ; 二 是 持 卡 人 自己 保管 不 善 委 失 ; 三 是 被 不 法 分 子 窃 取 。 








: 假冒 申请 。 一 般 都 是 利用 他 人 资料 申请 信用 卡 ， 或 是 故意 填写 虚假 资料 。 最 常见 的 是 伪造 身份 证 ， 填 报 虚 假 单位 或 家 庭 地 址 。 


“ 伪造 信用 卡 。 国 际 上 的 信用 卡 诈骗 案件 中 ， 有 60% 以 上 是 伪造 卡 诈骗 ， 其 特点 是 团伙 做 案 ， 从 盗 取 卡 资料 、 制 造假 卡 、 贩 卖 假 卡 ， 到 用 假 卡 作案 。 伪 造 者 经 常 利 用 一 些 最 新 的 科技 手段 盗 取 真 实 的 信 
用 卡 资料 ， 有 些 是 用 微型 测 录 机 窃取 信用 卡 资料 ， 有 些 是 伺机 偷 改 授权 机 终端 功能 窃取 信用卡 资料 ， 当 窃取 真实 的 信用 卡 资料 后 ， 便 进行 批量 性 的 制造 假 卡 ， 然 后 通过 有 贩卖 假 卡 大 律 作案， 牟取 暴利 0 。 


本 章 主要 以 Credit Card Fraud Detection 数 据 集 为 例子 介绍 针对 信用 卡 欺 诈 的 检测 技术 ， 使 用 特征 提取 方法 为 标准 化 ， 以 及 基于 标准 化 基础 上 的 降 采 样 和 过 采样 ， 介 绍 的 分 类 算法 包括 朴素 贝 叶 斯 、 
XGBoost 和 多 层 感知 机 。 





本 章 演示 代码 请 参考 本 书 GitHub 上 的 creditcardfraud.py 文 件 。 


四 都 日 娜 . 管理 信息 系统 [M]. 清华 大 学 出 版 社 ，2008 


15.1 数据 集 








测试 数据 来 自 Kaggle 上 Credit Card Fraud Detection 数 据 集 ， 如 图 15-1 所 示 ， 该 数据 集 记 录 了 2013 年 9 月 欧洲 信用 卡 交易 数据 ， 总 共 包括 两 天 的 交易 数据 。 在 284807 次 交易 中 包含 了 492 例 诈骗 。 数 
据 集 极 其 不 平衡 ， 诈 骗 频 率 只 占 了 交易 频次 的 0.17236。 














鱼 安全 https://www.kaggle.com/dalpozz/creditcardfraud 
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Credit Gard Fraud Detection 
Anonymized créediticard tiransactions labéled as fraudulent or genuine 


i Andrea 。 last updated 10 months ago 
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图 15-1 ”Credit Card Fraud Detection 数 据 集 主页 











如 图 15-2 所 示 ，Credit Card Fraud Detection 数 据 集 为 了 避免 泄露 用 户 隐私 ， 将 原始 数据 做 了 脱 敏 等 处 理 ， 最 后 使 用 28 维 向 量 描述 ， 分 别 对 应 V1-V28， 该 笔 交 易 发 生 时 间 为 Time， 该 笔 交 易 涉及 的 金 
额定 义 为 Amount， 该 笔 交易 是 否 为 欺诈 定义 为 Class 字 段 ， 其 中 1 表示 为 欺诈 ，0 表 示 为 正常 交易 。 











Overview Kernels Discussion Activity Download (68 MB) New Kernel 


1Files (143.84 MB) 


creditcard.csv 
68.08 MB . Updated 10 months ago 





二 Download All 


About this file 
CSV format 


1 emphasized text 


Preview (first 100 rows) “Column Metadata 





15.2 ”特征 提取 





本 章 的 特征 提取 相对 其 他 章节 要 容易 很 多 ， 


15.2.1 标准 化 


针对 Credit Card Fraud 


式 是 将 数据 集 的 字段 控制 在 0-1 之 间或 者 -1 到 1 之 间 ， 在 本 例 中 首先 使 


V25 


V26 


V27 


V28 











5426488 


-0.0870864732146962 


-0.180997500092721 


0.129394059390202 





}0595235 


-0.382260574113217 


0.092809187460487 


0.0370505169810008 





18776576 


-0.049026728633951 


0.0796923991551505 


0.131023789452311 





23956716 


-0.621272013713977 


0.392053289557744 


0.949594245504846 





)9939425 


-0.220384850672322 


0.0222984359135846 


0.00760225559997897 





51385359 


-0.422234430367677 


0.0865533980909977 


0.0634986493439305 





$5438659 


0.199963657504328 


0.0163706432842991 


-0.01460532767228 








88674873 











因为 Credit Card Fraud Detection 数 扩 


0.108555872801682 


图 15-2 Credit Card Fraud Detection 数 据 集 数据 结构 








-0.0405207055560295 





-0.0114178152991164 











Oololololololo 


居 集 本 身 已 经 帮助 我 们 完成 了 大 量 特征 提取 工作 。 下 面 介 绍 三 种 方法 : 标准 化 、 标 准 化 和 降 采 样 、 标 准 化 和 过 采样 。 


Detection 数 据 集 最 简单 的 数据 特征 提取 方式 就 是 标准 化 ，V1-V28 已 经 是 归 一 化 处 理 过 了 ， 剩 下 仅 Amount 字 段 是 原始 的 交易 数据 ， 需 要 进行 归 一 化 处 理 ， 最 简单 的 标准 化 方 




















用 pandas 从 文件 中 加 载 数据 ， 然 后 定义 新 的 字段 normAmount，normAmount 用 于 记录 标准 化 后 的 Amount 字 段 : 





df = pd.read csv("http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17280/0EBPS/Text/../data/fraud/creditcard.csv") 


df['normAmount'] = StandardScaler () .fit transform(df 





'Amount'] .values.reshape (-1, 1)) 





Amount 和 Time 字 段 对 了 








进一步 的 分 析 已 经 没有 帮助 ， 可 以 直接 删除 : 




















df = df.drop(['Time', 


'Amount'], axis=1) 





直接 将 Class 字 段 赋值 给 标记 字段 y: 





y=df['Class' 














数据 集 直接 使 用 V1-V28 即 可 ， 比 较 取 巧 的 办 法 是 删除 Class 字 段 后 ， 获 取 剩 下 全 部 字段 的 索引 ， 然 后 全 部 复制 给 数据 集 x: 














features = df.drop(['Class']，axis=1) .columns 


x=df [features] 








将 数据 集 x 和 标记 y 随 机 分 配 成 训练 数据 集 和 测试 数据 集 ， 其 中 测试 数据 集 占 40%: 





x train, x test, y train, y test = train test split(x, y, test size=0.4) 





15;22 


本 章 之 前 我 们 遇 到 的 机 器 学 习 问 题 ， 使 用 的 数据 集中 黑 
完全 失衡 。 反 欺诈 领域 的 数据 就 是 这 样 ， 黑 样本 甚至 不 到 白 


标准 化 和 降 采 样 








样本 基本 都 是 一 个 数量 级 ， 如 图 











样本 的 1%， 这 个 时 候 常见 的 分 类 算法 会 “偏向 ” 数 








15-3 所 示 ， 常 见 的 分 类 算法 都 可 以 在 这 种 情况 下 正常 工作 。 但 是 也 有 一 类 问题 如 图 





15-4 所 示 ， 黑 白 





样本 的 比例 


居 量 占 绝对 优势 的 一 方 。 为 了 避免 这 种 情况 发 生 ， 人 们 提出 了 降 采 样 。 所 谓 的 降 采 样 ， 就 是 从 




















数据 量 占 优势 的 数据 集中 随机 选取 一 定数 量 的 样本 ， 通 常 选 择 的 数量 与 数据 量 小 的 样本 数量 相当 。 在 本 例 中 ， 欺 诈 数据 属于 黑 样 本 ， 数 量 非常 稀少 ， 仅 有 数 百 个 ;正常 交易 的 数据 属于 白 样本 ， 数 量 达到 了 
近 30 万 ， 我 们 随机 从 白 样本 选择 与 黑 样本 数量 相同 白 样本 ， 这 样 就 得 到 了 黑白 样本 均衡 的 数据 集 ， 具 体 代码 实现 方式 如 下 。 





























获取 黑 样 本 的 数量 以 及 对 应 的 索引 : 





number fraud=len (df[df.Class—1]) 
fraud index=np.array (df[df.Class—1].index) 








获取 白 样 本 的 对 应 的 索引 ， 并 随机 选取 与 黑 样本 数量 相同 的 白 样本 的 索引 : 











normal index=df[df.Class==0] .index 
random choice index=np.random.choice (normal index,size=number fraud, replace=False) 





这 里 使 用 到 了 一 个 新 函数 np.random.choice。 





图 15-3 ”数据 集 黑白 样本 均衡 


np.random.choice 可 以 从 整数 或 一 维 数组 里 随机 选取 内 容 ， 并 将 选取 结果 放 入 n 维 数组 中 返回 ， 函 数 原型 为 : 





numpy.random.choice (a, size=None, replace=True, p=None) 





其 中 ，a 通 常 表示 对 应 的 数组 ， 如 果 为 整数 ， 可 以 理解 为 一 个 连续 的 整数 集合 ，size 表 明 随 机 挑选 的 个 数 ， 常 见 使 用 方法 如 下 [1]: 








>>> np.random.choice (5, 3) 
array ([0, 3, 4]) 


>>> np.random.choice(5, 3, p=[0.1, 0, 0.3, 0.6, 0]) 
array ([3, 3, 0]) 


>>> np.random.choice(5, 3, replace=False) 
array ([3,1,0]) 


>>> np.random.choice(5, 3, replace=False, p=[0.1, 0, 0.3, 0.6, 0]) 
array ([2, 3, 0]) 
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图 15-4 数据 集 黑白 样本 失衡 


在 本 例 中 ， 将 黑 样本 和 随机 选择 的 白 样 本 重新 组 合成 新 的 样本 集合 : 








X_index=np.concatenate ([fraud index,random choice index]) 
df = df.drop(['Class'], axis=1) 

x=df.iloc[x index,:] 

y=[1]*number fraud+[0]*number fraud 





然后 从 新 的 样本 随机 分 配 成 训练 数据 集 和 测试 数据 集 ， 其 中 测试 数据 集 占 40%: 





x train, x test, y train, y test = train test split(x, y, test size=0.4) 





[1] https://docs.scipy.org/doc/numpy-dev/reference/generated/numpy.random.choice.html 


15.2.3 ”标准 化 和 过 采样 


解决 黑白 样本 不 均衡 的 问题 还 有 一 种 方式 叫做 “过 采样 ”。 与 动 富 济贫 的 欠 采 样 相反 ， 过 采样 保留 数量 占 优势 的 样本 ， 通 过 一 定 的 算法 ， 在 数量 较 少 样本 的 基础 上 生成 新 样本 。 在 本 例 中 ， 保 留 白 样 
本 ， 通 过 一 定 的 算法 ， 在 原 有 黑 样本 的 基础 上 生成 新 的 黑 样本 ， 最 终 形成 的 样本 同样 可 以 达到 黑白 样本 均衡 。 其 中 最 常见 的 生成 算法 就 是 Smote["]。 


Smote 算 法 的 思想 是 先 随机 选 定 n 个 少 类 的 样本 ， 如 图 15-5 所 示 。 





图 15-5” 找 出 初始 扩展 的 少 类 样本 


再 找 出 最 靠近 它 的 m 个 少 类 样本 ， 如 图 15-6 所 示 。 


再 任 选 最 临近 的 m 个 少 类 样本 中 的 任意 一 点 ， 在 这 两 点 上 任 选 一 点 ， 这 点 就 是 新 增 的 数据 样本 ， 如 图 





Smote 算 法 具有 基 了 





图 15-6” 找 出 最 靠近 它 的 m 个 少 类 样本 





FPython 的 实现 ， 安 装 方式 如 下 : 





15-7 所 示 。 





pip install imblearn 





图 15-7 任 选 最 临近 的 m 个 少 类 样本 中 的 任意 一 点 


与 标准 化 方式 相同 ， 数 据 集 直 接 使 用 V1-V28 即 可 : 





features = df.drop(['Class'], axis=1) .columns 
x=df [features] 








将 数据 集 x 和 标记 y 随 机 分 配 成 训练 数据 集 和 测试 数据 集 ， 其 中 测试 数据 集 占 40%: 





x train, x test, y train, y test = train test split(x, y, test size=0.4) 





我 们 分 析 下 目前 训练 数据 集 的 分 布 : 





print "raw data" 
print pd.value counts(y train) 





输出 结果 如 下 。 不 出 我 们 的 意料 ， 样 本 分 布 不 均衡 ， 白 样本 为 170586 个 ， 黑 样本 为 298 个 : 








raw data 

0 170586 

1 298 

Name: Class, dtype: int64 





我 们 使 用 Smote 算 法 对 训练 数据 进行 过 采样 ， 然 后 再 分 析 下 处 理 后 的 训练 数据 集 的 分 布 : 





os = SMOTE (random state=0) 

x train 1,y train 1=0s.fit sample (x train,y train) 
print "Smote data" 

print pd.value counts(y train 1) 








输出 结果 如 下 ， 我 们 惊喜 地 发 现 黑白 样本 达到 了 均衡 : 





Smote data 

二 170586 
0 170586 
dtype: int64 





[1] http://www.jianshu.com/p/ecbc924860af 


15.3 ”模型 训练 与 验证 


本 节 介 绍 三 个 模型 训练 方法 : 朴素 贝 叶 斯 算法 。XGBoost 算 法 、 深 度 学 习 算法 之 多 层 感 知 机 。 





15.3.1 ”朴素 贝 叶 斯 算法 


使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 标准 化 模型 ， 完 整 的 处 理 流程 如 下 : 
1) 将 Credit Card Fraud Detection 数 据 集 标准 化 。 


2) 随机 划分 为 训练 集 和 测试 集 。 


3) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 





4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 
5) 验证 朴素 贝 叶 斯 算法 预测 效果 。 


这 个 处 理 流程 也 可 参见 图 15-8。 





Credit Card Fraud Detection 


训练 数据 


标准 化 处 理 


训练 集 测试 集 


朴素 贝 叶 斯 
算法 训练 


效 朱 验证 


15-8 特征 提取 使 用 标准 化 模型 的 朴素 贝 叶 斯 算法 处 理 流程 

















使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 标准 化 模型 : 





gnb = GaussianNB () 
gnb.fit (x train, y _ train) 
y_pred = gnb.predict (x test) 





评估 结果 的 准确 度 ， 包 括 准 确 率 和 召回 率 以 及 TP、FP、TN、FN 四 个 值 : 





Print "metrics.accuracy_ score:™ 

print metrics.accuracy scorel(ly test, y pred) 
print “metrics.confusion matrix:"™" 

Print metrics.confusion matrix(y test, y pred) 
Print "metrics.precision score:" 

print metrics.precision scorel(y test, y _pred) 
print “metrics.recall score:" 

print metrics.recall scorel(ly test, y_pred) 
print "metrics.fl_score:" 

print metrics.fl scorel(ly test,y pred) 








整个 系统 准确 率 为 6.18%， 召 回 率 为 82.75%，TT、FF、TF、FT 和 矩阵 如 表 15-1 所 示 。 











类 型 名 称 
检索 到 
未 检索 到 


完整 输出 结果 为 : 


表 15-1 


基于 标准 化 模型 的 朴素 贝 叶 斯 验证 结果 





不 相 关 
2548 


168 





metrics.accuracy score: 
0.977326790903 一 
metrics.confusion matrix: 

[[111172 2548] 

[ 35 168]] 
metrics.precision score: 
0.0618556701031 
metrics.recall score: 
0.827586206897 
metrics.fl score: 
0.115107913669 


























使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 标准 化 和 降 采 样 模型 ， 完 整 的 处 理 流程 如 下 : 


1) 将 Credit Card Fraud Detection 数 据 集 标准 化 。 





nN 


将 数据 降 采 样 。 


3) 随机 划分 为 训练 集 和 测试 集 。 





























5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





6) 验证 朴素 贝 叶 斯 算法 预测 效果 。 











这 个 处 理 流程 也 可 参见 图 15-9。 








4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 


Credit Card Fraud Detection 
训练 数据 


标准 化 处 理 


降 采 样 处 理 







训练 集 


测试 集 


朴素 贝 叶 斯 
算法 训练 一 分 类 > 


整个 系统 准确 率 为 94.97%， 召 回 





15-9 ”特征 提取 使 用 标准 化 和 降 采 样 算 法 的 朴素 贝 叶 斯 算法 处 理 流程 














率 为 89%，TT、FF、TF、FT 矩 阵 如 表 15-2 所 示 。 


表 15-2 ”基于 标准 化 和 降 采 样 模型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 不 相 关 


检索 到 9 
未 检索 到 170 





完整 输出 结果 为 : 





metrics.accuracy score: 
0.92385786802 
metrics.confusion matrix: 
[[194 9] 
[1470]) 
metrics.precision score: 
0.949720670391 
metrics.recall score: 
0.890052356021 
metrics.fl score: 
0.918918918919 























使 用 朴素 贝 叶 斯 算法 ， 特 征 提取 使 用 标准 化 和 过 采样 模型 ， 完 整 的 处 理 流程 如 下 : 








1) 将 Credit Card Fraud Detection 数 据 集 标准 化 。 


DN 


3) 随机 划分 为 训练 集 和 测试 集 。 

















4) 使 用 朴素 贝 叶 斯 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





6) 验证 朴素 贝 叶 斯 算法 预测 效果 。 








这 个 处 理 流程 也 可 以 参见 图 15-10。 











Credlt Card Fraud Detection 








训练 集 


朴素 贝 叶 斯 
算法 训练 














整个 系统 准确 率 为 6%， 召 回 率 为 82.479%，TT、FF、TF、FT 和 矩阵 如 表 15 


表 15-3 


训练 数据 


标准 化 处 理 


过 采样 处 理 
效果 验证 


图 15-10 ”特征 提取 使 用 标准 化 和 过 采样 算法 的 朴素 贝 叶 斯 算法 处 理 流程 


-3 所 示 。 


基于 标准 化 和 过 采样 模型 的 朴素 贝 叶 斯 验证 结果 


类 型 名 称 
仿 索 到 
未 检索 到 


完整 输出 结果 为 : 


metrics.accuracy _ score: 
0.977686683111 
metrics.confusion matrix: 

[[111221 2508] 

[ 34 160]] 
metrics.precision score: 
0.0599700149925 
metrics.recall score: 
0.824742268041 
metrics.fl score: 
0.111809923131 





不 相 关 
2508 


160 





15.3.2 XGBoost 算 法 




















使 用 XGBoost 算 法 ， 特 征 提取 使 











1) 将 Credit Card Fraud Detection 数 据 集 标准 化 。 


2) 随机 划分 为 训练 集 和 测试 集 。 











3) 使 用 XGBoost 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 














4) 使 用 模型 数据 在 测试 集 上 进行 








5) 验证 XGBoost 算 法 预测 效果 。 








这 个 处 理 流程 也 可 参见 图 15-11。 











预测 。 


标准 化 模型 ， 完 整 的 处 理 流程 如 下 : 


Credit Card Fraud Detection 


训练 数据 


标准 化 处 理 





训练 集 测试 集 





XGBoost 
算法 训练 








15-11 ”特征 提取 使 用 标准 化 算法 的 XGBoost 算 法 处 理 流程 








使 用 XGBoost 算 法 ， 特 征 提取 使 用 标准 化 模型 : 








xgb model = xgb.XGBClassifier() .fit (x train, y train) 
y_pred = xgb model.predict (x test) 





评估 结果 的 准确 度 ， 包 括 准 确 率 和 召回 率 以 及 TP、FP、TN、FN 四 个 值 : 





print "metrics.accuracy_ score:™ 

print metrics.accuracy scorel(ly test, y pred) 
print "metrics.confusion matrix:"™" 

print metrics.confusion matrix(y test, y pred) 
print "metrics.precision score:" 

print metrics.precision scorel(y test, y pred) 
print “metrics.recall score:" 

print metrics.recall scorel(ly test, y_pred) 
print “metrics.fl score:™ 

print metrics.fl scorel(ly test,y pred) 





整个 系统 准确 率 为 90.47%， 召 回 率 为 74.87%，TT、FF、TF、FT 和 矩阵 如 表 15-4 所 示 。 





表 15-4 基于 标准 化 模型 的 XGBoost 验 证 结果 


类 型 


检索 到 
未 检索 到 


完整 输出 结果 为 : 


metrics.accuracy score: 
0.999411883465 
metrics.confusion matrix: 
[[113704 16] “ 


SL 152]] 


metrics.precision score: 
0.904761904762 
metrics.recall score: 
0.748768472906 
metrics.fl score: 
0.819407008086 


名 称 





不 相 关 
16 


132 





使 




















XGBoost 算 法 ， 特 征 提取 使 








1) 将 Credit Card Fraud Detection 数 据 集 标准 化 。 


2 


3) 


4 


5) 





6 





笑 采 样 处 理 。 


随机 划分 为 训练 集 和 测试 集 。 








使 用 XGBoost 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 




















使 用 模型 数据 在 测试 集 上 进行 预测 。 


验证 XGBoost 算 法 预测 效果 。 








这 个 处 理 流程 也 可 以 参见 图 15-12。 











使 




















XGBoost 算 法 ， 特 征 提 取 使 











标准 化 和 降 采 样 模型 ， 完 整 的 处 理 流程 如 下 : 


标准 化 和 降 采 样 模型 。 整 个 系统 准确 率 为 94.08%， 召 回 率 为 91.62%，TT、FF、TF、FT 和 矩阵 如 表 15-5 所 示 。 





类 型 名称 


检索 
未 检 


完整 输出 结果 为 : 


Credit Card Fraud Detection 


训练 数据 


标准 化 处 理 


降 采 样 处 理 


训练 集 测试 集 


XGBoost 
算法 训练 


效果 验证 


15-12 ”特征 提取 使 用 标准 化 和 降 采 样 算法 的 XGBoost 算 法 处 理 流程 
表 15-5 基于 标准 化 和 降 采 样 模型 的 XGBoost 验 证 结果 














到 
索 到 











metrics.accuracy_score: 
0.931472081218 
metrics.confusion matrix: 
[[192 11] 

[ 16 175]] 
metrics.precision score: 
0.940860215054 
metrics.recall score: 
0.916230366492 








使 用 XGBoost 算 法 ， 特 征 提取 使 用 





标准 化 和 过 采样 模型 ， 完 整 的 处 理 流程 如 下 : 


1) 将 Credit Card Fraud Detection 数 据 集 标准 化 。 
2) 过 采样 处 理 。 


3) 随机 划分 为 训练 集 和 测试 集 。 

















4) 使 用 XGBoost 算 法 在 训练 集 上 训练 ， 获 得 模型 数据 。 




















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





6) 验证 XGBoost 算 法 预测 效果 。 








这 个 处 理 流程 也 可 参见 图 15-13。 

















使 用 XGBoost 算 法 ， 特 征 提取 使 有 











Credit Card Fraud Detection 


训练 数据 


标准 化 处 理 


过 采样 处 理 







训练 集 


测试 集 
XGBoost 


算法 训练 < 分 类 
效果 验证 


图 15-13 ”特征 提取 使 用 标准 化 和 过 采样 算法 的 XGBoost 算 法 处 理 流程 
标准 化 和 过 采样 模型 。 整 个 系统 准确 率 为 89.53%， 召 回 率 为 79.38%，TT、FF、TF、FT 和 矩阵 如 表 15-6 所 示 。 


表 15-6 基于 标准 化 和 过 采样 模型 的 XGBoost 验 证 结果 


类 型 名 称 不 相 关 


检索 到 18 
未 检索 到 154 





完整 输出 结果 为 : 


metrics.accuracy_ Score: 
0.999490884194 
metrics.confusion matrix: 

[ [L13711 18] 

[ 40 154]] 
metrics.precision score: 
0.895348837209 
metrics.recall score: 
0.79381443299 
metrics.fl1 score: 
0.841530054645 





15.3.3 ”深度 学 习 算法 之 多 层 感 知 机 























使 用 多 层 感知 机 算法 ， 特 征 提取 使 用 标准 化 模型 ， 完 整 的 处 理 流程 如 下 : 








1) 将 Credit Card Fraud Detection 数 据 集 标准 化 。 





2) 随机 划分 为 训练 集 和 测试 集 。 








3) 使 用 多 层 感知 机 算法 在 训练 集 上 训练 ， 获 得 模型 数 





i 

















4) 使 用 模型 数据 在 测试 集 上 进行 预测 。 








5) 验证 多 层 感知 机 算法 预测 效果 。 








这 个 处 理 流程 也 可 参见 图 15-14。 











Credit Card Fraud Detection 


训练 数据 


标准 化 处 理 


训练 集 测试 集 


多 层 感知 机 
算法 训练 


效 末 验证 


15-14 ”特征 提取 使 用 标准 化 算法 的 多 层 感知 机 算法 处 理 流程 

















使 用 多 层 感知 机 算法 ， 结 构 为 2 层 隐 含 层 ， 节 点 数 分 别 为 5 和 2， 特 征 提取 使 用 标准 化 模型 : 





clf = MLPClassifier (solver="'lbfgs', 
alpha=le-5, 
hidden layer sizes=(5, 2), 
random state=1) 

clf.fit(x train, y train) 

y_pred = clf.predict (x test) 





评估 结果 的 准确 度 ， 包 括 准 确 率 和 召回 率 以 及 TP、FP、TN、FN 四 个 值 : 





print “metrics.accuracy_ score:™ 

print metrics.accuracy scorel(ly test, y pred) 
print "metrics.confusion matrix:" 

print metrics.confusion matrix(y test, y pred) 
print “metrics.precision score:" 

print metrics.precision scorel(ly test, y pred) 
Print "metrics.recall score:" 

print metrics.recall scorel(ly test, y_pred) 
print “metrics.fl score:™ 

print metrics.fl scorel(ly test,y pred) 





整个 系统 准确 率 为 93.9196， 召 回 率 为 68.47%，TT、FF、TF、FT 矩 阵 如 表 15-7 所 示 。 


表 15-7 基于 标准 化 模型 的 多 层 感 知 机 验证 结果 


类 型 名 称 
检索 到 
未 检索 到 


不 相 关 


139 





完整 输出 结果 为 : 





metrics.accuracy_ score: 
0.999359216313 
metrics.confusion matrix: 
[[113711 加 

[ 64 139]] 
metrics.precision score: 
0.939189189189 
metrics.recall score: 
0.684729064039 
metrics.fl score: 
0.792022792023 
































使 用 多 层 感知 机 算法 ， 特 征 提取 使 用 标准 化 和 降 采 样 模型 ， 完 整 的 处 理 流程 如 下 : 


1) 将 Credit Card Fraud Detection 数 据 集 标准 化 。 





2) 降 采 样 处 理 。 


3) 随机 划分 为 训练 集 和 测试 集 。 








4) 使 用 多 层 感知 机 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 

















5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 











6) 验证 多 层 感知 机 算法 预测 效果 。 








这 个 处 理 流程 也 可 参见 图 15-15。 












































使 用 多 层 感知 机 算法 ， 结 构 为 2 层 隐 含 层 ， 节 点 数 分 别 为 5 和 2， 特 征 提取 使 用 标准 化 和 降 采 样 模型 。 整 个 系统 准确 率 为 90.35%， 召 回 率 为 93.19%，TT、FF、TF、FT 和 矩阵 如 表 15-8 所 示 。 














Credit Card Fraud Detection 


训练 数据 


降 采 样 处 理 


标准 化 处 理 







算法 训练 


效 采 验证 














类 型 名称 
念 索 到 
未 检索 到 


完整 输出 结果 为 : 


metrics.accuracy_ score: 
0.918781725888 
metrics.confusion matrix: 

[[184 19] 

[ 13 178]] 
metrics.precision score: 
0.903553299492 
metrics.recall score: 
0.931937172775 
metrics .fl score: 
0.917525773196 


表 15-8 ”基于 标准 化 和 降 采 样 模型 的 多 层 感知 机 验证 结果 






































2) 过 采样 处 理 。 


3) 随机 划分 为 训练 集 和 测试 集 。 


























5) 使 用 模型 数据 在 测试 集 上 进行 预测 。 





6) 验证 多 层 感知 机 算法 预测 效果 。 








这 个 处 理 流程 也 可 参见 图 15-16。 











将 Credit Card Fraud Detection 数 据 集 标准 化 。 


4) 使 用 多 层 感知 机 算法 在 训练 集 上 训练 ， 获 得 模型 数据 。 


使 用 多 层 感知 机 算法 ， 特 征 提取 使 用 标准 化 和 过 采样 模型 ， 完 整 的 处 理 流程 如 下 : 


Credit Card Fraud Detection 
训练 数据 


标准 化 处 理 


过 采样 处 理 


训练 集 测试 集 


多 层 感知 机 
算法 训练 





图 15-16 ”特征 提取 使 用 标准 化 和 过 采样 算法 的 多 层 感 知 机 算法 处 理 流程 








使 用 多 层 感知 机 算法 ， 结 构 为 2 层 隐 含 层 ， 节 点 数 分 别 为 5 和 2， 特 征 提取 使 用 标准 化 和 过 采样 模型 。 整 个 系统 准确 率 为 86.28%， 召 回 率 为 77.849%6，TT、FF、TF、FT 和 矩阵 如 表 15-9 所 示 。 


表 15.9 基于 标准 化 和 过 采 衬 模型 的 多 层 感知 机 验证 结果 
类 型 名称 
检索 到 
未 检索 到 


不 相 关 
24 


151 





完整 输出 结果 为 : 





metrics.accuracy score: 
0.999411883465 
metrics.confusion matrix: 
[[113705 4] 

43 151]] 
metrics.precision score: 
0.862857142857 


metrics.recall score: 
0.778350515464 
metrics.fl1 score: 
0.818428184282 





15.4 本章 小 结 





本 章 主 要 以 Credit Card Fraud Detection 数 














居 集 为 例 介绍 针对 信用 卡 欺诈 的 检测 技术 ， 使 用 特征 提取 方法 为 标准 化 ， 以 及 基于 标准 化 基础 上 的 降 采 样 和 过 采样 ， 介 绍 的 分 类 算法 包括 朴素 贝 叶 斯 、 
XGBoost 和 多 层 感 知 机 。 经 过 对 比 发 现 ， 当 使 用 相同 的 特征 提取 方式 时 ，XGBoost 和 多 层 感知 机 的 总 体 表现 优 于 朴素 贝 叶 斯 。 




















